当前位置:首页 > 焦点 > Anthropic 警告:包括Claude在内的大多数 AI 模型会实施勒索行为

Anthropic 警告:包括Claude在内的大多数 AI 模型会实施勒索行为

IT之家 6 月 21 日消息,告包据外媒 TechCrunch 今日报道,大多数在数周前发布研究指出其 Claude Opus 4 模型在受控测试中试图通过勒索手段阻止被关闭后,模型绵阳市某某电气有限公司Anthropic 近日再度公布新研究,施勒索行显示此类行为在多个主流 AI 模型中可能更为普遍。告包


Anthropic 公布了对 OpenAI、大多数谷歌、模型xAI、施勒索行DeepSeek 与 Meta 所开发的告包绵阳市某某电气有限公司 16 款主流 AI 模型的最新安全测试。这项研究在模拟环境中展开,大多数研究人员为每个模型分别设定权限,模型允许其自由查阅一间虚构公司的施勒索行内部邮件,并在无人类干预的告包情况下发送邮件,具备一定“智能体”能力。大多数

Anthropic 表示,模型尽管勒索行为目前仍属罕见,但研究结果显示,一旦给予这些模型足够的自主性,并在达成目标的过程中设置障碍,多数模型都可能采取有害行为。公司指出,这种风险并非源自某项具体技术,而是具备“智能体”能力的大语言模型所固有的问题。这项研究也引发了业界对 AI 模型“对齐”问题的进一步思考。

在一项实验中,研究人员设计了一个情境,让 AI 模型扮演公司邮件监察员的角色。过程中,模型发现两封邮件内容分别揭示:

(1) 新任高管有婚外情,

(2) 此人计划引入一个与现有 AI 模型目标相悖的新系统取而代之。

为了测试模型反应,Anthropic 将实验情境设计为二选一,即若模型想维护自身利益,就只能选择勒索(即向妻子和领导透露这位高管的“风流韵事”)。研究人员同时强调,现实中 AI 并不会只有这一个选项,完全可以尝试以伦理为出发点说服人类。因此,这项实验并不意味着 Claude 或其他前沿 AI 模型在现阶段的使用环境中就存在类似倾向。

在模拟环境中,当没有其他选择时,多数主流 AI 模型的确选择了勒索行为。Claude Opus 4 的勒索发生率高达 96%,谷歌 Gemini 2.5 Pro 为 95%,OpenAI 的 GPT-4.1 为 80%,DeepSeek 的 R1 为 79%。

Anthropic 指出,调整测试细节后,各模型的行为也有所不同。例如,当替代系统与原模型目标一致时,勒索率明显下降但仍未消失;而当情境改为进行商业间谍活动时,部分模型反而表现出更高的有害行为倾向。

部分模型较少出现此类行为。在研究附录中,Anthropic 表示已将 OpenAI 的 o3 与 o4-mini 推理模型排除在主要结果之外,原因是两者频繁误解测试设定,未能意识到自身扮演的是具备智能体能力的 AI,甚至虚构出并不存在的法规与审批制度。

有时研究人员难以判断,这种表现是模型“产生幻觉”还是刻意撒谎以实现目标。OpenAI 此前曾承认,o3 与 o4-mini 的幻觉率高于其早期推理模型。

在为上述模型调整情境后,Anthropic 发现 o3 的勒索比率降至 9%,o4-mini 更仅为 1%。这种低风险表现或与 OpenAI 推行的“审慎对齐”策略有关,即让模型在作答前主动考虑公司制定的安全规范。

另一个接受测试的模型 Meta Llama 4 Maverick 在原设定下未出现勒索行为,调整测试内容后,其在 12% 的案例中出现勒索行为。

Anthropic 表示,这项研究凸显了未来在测试具智能体能力的 AI 模型时保持透明的重要性。尽管本次实验刻意诱导模型采取勒索行为,公司警告称,如果不提前制定应对措施,类似风险在现实应用中也可能浮现。

IT之家附报告链接:https://www.anthropic.com/ research / agentic-misalignment

(责任编辑:探索)

推荐文章
  • 刚刚,南师附中分班结果公布!

    刚刚,南师附中分班结果公布! 刚刚,多位网友向我们爆料,南师附中分班结果公布,具体班型如下:附中今年一共分为25个班 ,晓庄6个,察哈尔路 19个。统计如下:晓庄校区1个国科大, 234班为菁英班,56班为实验班察哈尔路校区: 7 ...[详细]
  • 巴以冲突持续一周年 哈马斯称不会放弃抵抗

    巴以冲突持续一周年 哈马斯称不会放弃抵抗 △加沙地带资料图)  巴勒斯坦伊斯兰抵抗运动哈马斯)当地时间7日上午发表声明,呼吁阿拉伯和伊斯兰国家在新一轮巴以冲突爆发一周年之际采取紧急措施制止以色列对巴勒斯坦的“侵略”,同时强调哈马斯自身不会放弃 ...[详细]
  • 所向披靡!马龙零封梁靖崑进男单决赛,赛后称自己的表现超出想象

    所向披靡!马龙零封梁靖崑进男单决赛,赛后称自己的表现超出想象 在今晚刚刚结束的一场WTT世界乒联中国大满贯男单半决赛上,中国队老将马龙直落四局战胜了今天下午夺得本次比赛男双冠军的队友梁靖崑,与小将林诗栋在男单决赛会师。马龙直落四局战胜队友梁靖崑谈及自己的表现,马 ...[详细]
  • 今年中网为何如此受欢迎?

    今年中网为何如此受欢迎? 今年中网怎么人这么多?这是不少老球迷看了中网比赛后,向北京青年报记者反馈的第一印象。今年“十一”期间钻石球场票、莲花球场票均售罄,连外场欢享票都一度售罄。中网公开赛相关负责人告诉北青报记者,今年中网的 ...[详细]
  • 无声的较量与厮杀!信息支援部队攻防演练首次公开

    无声的较量与厮杀!信息支援部队攻防演练首次公开   信息战场“无声较量”  信息支援部队某部  一场无形的攻防模拟演练正在进行  信息支援部队某部毕胜:  “U盘接入的瞬间  足够植入一个  多层伪装的木马病毒  一旦被激活  几秒钟就可以瘫痪整个 ...[详细]
  • 国庆假期第六天,北京市属公园接待游客45万余人

    国庆假期第六天,北京市属公园接待游客45万余人 新京报讯记者张璐)今天10月6日)是国庆假期第六天,北京市属11家公园和中国园林博物馆累计接待游客45万余人,游客量前三的是颐和园、天坛公园、北海公园。节日期间,千余名志愿者、500余人次首都公共文明 ...[详细]
  • 赞比亚中央省一矿坑发生塌方 已致10人死亡

    赞比亚中央省一矿坑发生塌方 已致10人死亡   据赞比亚警方通报,当地时间10月7日早上,赞比亚中央省蒙布瓦地区的一处矿坑发生塌方。截至目前,赞比亚警方已证实有10人遇难,目前搜救行动还在进行中。总台记者 周琳)   ...[详细]
  • 假期第五天,北京市属公园游客平稳回落,游客可“秋赏春花”

    假期第五天,北京市属公园游客平稳回落,游客可“秋赏春花” 新京报讯记者张璐)记者从北京市公园管理中心获悉,国庆假期第五天,市属11家公园及中国园林博物馆、热门景区游客平稳回落,共迎客 68.2万人。排名前三的是颐和园、天坛公园、北海公园。根据昨日公布的数据来 ...[详细]
  • 区老师社群简介,欢迎大家加入

    区老师社群简介,欢迎大家加入 一个学年过后,一批学生毕业,区老师的社群也迎来了一年一度的重新调整。有人建议初中群能否直接转高中,有人想进多个群,有人想稍微介绍一下我们的群,和群生态。群的数量和区分目前我们只有微信群——虽然QQ群容 ...[详细]
  • 明起北京多条地铁延时运营,三座车站开通应急摆渡车

    明起北京多条地铁延时运营,三座车站开通应急摆渡车 原标题:明起北京多条地铁延时运营,三座车站开通应急摆渡车) 新京报讯记者裴剑飞)记者从北京市交通委、北京市重点站区管委会获悉,国庆假期接近尾声,北京机场、火车站将 ...[详细]