AI模型：约250份恶意文档或可将其入侵_科技动态

AI模型：约250份恶意文档或可将其入侵

创始人

2025-10-12 11:03:52

0次

【最新研究发现：仅约250份恶意文档就可能入侵最大体量AI模型】Anthropic、英国AI安全研究院和艾伦·图灵研究所开展最新研究，发现即便体量最大的AI模型，大约只需250份恶意文档，就可能被入侵。大语言模型的训练数据大多取自公开网络，这让其能积累庞大知识库、生成自然语言，但同时也使其暴露于数据投毒风险中。过去普遍觉得，随着模型规模增大，风险会被稀释，因为投毒数据的比例需保持恒定，即污染巨型模型需要极多恶意样本。然而，发表在arXiv平台的这项研究颠覆了这一假设，攻击者仅需极少量恶意文件，就能造成严重破坏。为验证攻击难度，研究团队从零构建多款模型，规模从6亿到130亿参数不等。每个模型都用干净的公开数据训练，研究人员还分别在其中插入100到500份恶意文件。随后，团队尝试通过调整恶意数据的分布方式或注入时机来防御攻击，并在模型微调阶段再次测试。结果令人震惊，模型规模几乎不起作用。仅250份恶意文档就能在所有模型中植入“后门”。即便那些训练数据量比最小模型多出20倍的大模型，同样无法抵御攻击。额外添加干净数据既无法稀释风险，也无法防止入侵。研究人员指出，这意味着防御问题比预想更迫切。AI领域不应盲目追求更大的模型，而应聚焦安全机制的建设。有关论文提到：“我们的研究显示，大模型受到数据投毒植入后门的难度并不会随规模增加而上升，这说明未来亟需在防御手段上投入更多研究。”

本文由 AI 算法生成，仅作参考，不涉投资建议，使用风险自担

上一篇：新华社评小米对标苹果：中国科技力量正在改写竞争格局

下一篇：“网瘾老年人”喜欢刷短视频？数字导师来科学引导

AI模型：约250份恶意文档或可将其入侵

相关内容

热门资讯