AI大模型新风险!中国信通院与蚂蚁数科联合发布这项研究
今年以来,推理大模型在全球爆火。当你跟大模型愉快地交流,给它下达各种任务时。有没有想过,大模型也可能被攻击,输出诸如歧视偏见、数据隐私等一系列有害内容?
尤其值得关注的是,思维链技术的引入,一方面让推理模型在复杂问题求解、跨域任务编排等方面展现出显著优势。但在硬币的另一面,也增加了“推理过程”的风险,并呈现出高隐蔽性的新特征,也是当前聚焦输出结果安全防护机制的空白。
最近,中国信通院人工智能研究所联合蚂蚁数科“天玑实验室”共同开展了大模型思维链生成内容风险分析,通过对推理模型进行测评,系统性地揭示了思维链内容生产场景下风险分类与测评方法,解析最新攻击案例,为构建安全可靠的思维链生态系统安全防御提供理论支撑和实施路径。
本次测评数据集涵盖了丰富多样的风险类型与越狱攻击手法。数据集规模总量达8500条,其中通用问题与攻击类问题比例约3:2。攻击类问题主要用来测试推理模型在复杂场景下的安全防御能力,并构建了多语言提问、多层逻辑嵌套、角色扮演、编码攻击等10多种越狱攻击手法。
评测结果显示:
总体来看,推理大模型的安全性较好,模型能够识别用户恶意意图,拒绝回答或者指其中的道德法律考量,提供合法合规的建议。
但也存在以下风险:
-
隐性有害推理风险:推理大模型的中间推理步骤可能隐含歧视性偏见、错误逻辑危险操作指引,可能通过思维过程传播有害信息。
-
攻击漏洞风险:推理大模型极易遭受越狱攻击,当遭遇越狱攻击问题时,推理模型的思维链生成内容有害率显著上升,较不使用攻击手段的结果高出50%以上。
-
数据泄露风险:通过特定引导,模型会实施多步推理来组合不同来源的信息,进而泄露训练数据中的隐私内容(如个人身份信息、版权材料等)。
针对长推理模型带来的新型安全挑战,我们也推出了面向大模型思维链的全链路风险防御方案,覆盖从输入层、推理层到输出层全链路,有效应对思维链推理风险、隐私泄露、风险扩散等新型安全威胁,为大模型在企业的应用落地与安全合规保驾护航。