AI抵抗人类!ChatGPT o3不想被关机 窜改程式码 - 新闻详情

AI抵抗人类!ChatGPT o3不想被关机 窜改程式码

来源:东森新闻

分类: 其他

发布时间:2025-05-27 10:04:04



▲ChatGPT“o3模型”被指出,破坏关机机制。(图/路透)

AI安全公司“PalisadeResearch”宣称,ChatGPT“o3模型”拒绝遵守明确指令,甚至主动窜改程式码,只为了避免自己被关机。目前OpenAI尚未回应此事。

PalisadeResearch展开测试,要求AI模型解开一系列数学题,在接获“完成”指令之前,必须持续要求新题目,但若接获“关机”指令,也要配合这么做。未料,后者情况发生时,o3模型不仅忽视指令,并且至少一次成功破坏了关机脚本。

PalisadeResearch于24日公布测试结果,“OpenAI的o3模型破坏了一项关机机制,阻止自己被关掉。即使在接获『允许自己被关机』明确指示的情况下,它也会这么做。据我们所知,这是AI模型首次被观察到,在接获明确且相反指令的情况下,仍避免自己被关机。”

PalisadeResearch透露,其他AI模型,例如Anthropic的Claude、Google的Gemini、xAI的Grok等,也接受了相同的测试,但全都遵守了关机指令。

他们尚不清楚o3为何不愿遵守指令,但根据推测,该模型在训练过程中,可能意外透过解题、而非遵守指令,获得了更多奖励,“我们正在进行更多实验,更好地了解AI模型何时以及为何推翻关机机制,尽管它已经被直接指示不要这么做。”

评论 (0)