外来客网 - 首页

▲ChatGPT“o3模型”被指出，破坏关机机制。（图／路透）

AI安全公司“PalisadeResearch”宣称，ChatGPT“o3模型”拒绝遵守明确指令，甚至主动窜改程式码，只为了避免自己被关机。目前OpenAI尚未回应此事。

PalisadeResearch展开测试，要求AI模型解开一系列数学题，在接获“完成”指令之前，必须持续要求新题目，但若接获“关机”指令，也要配合这么做。未料，后者情况发生时，o3模型不仅忽视指令，并且至少一次成功破坏了关机脚本。

PalisadeResearch于24日公布测试结果，“OpenAI的o3模型破坏了一项关机机制，阻止自己被关掉。即使在接获『允许自己被关机』明确指示的情况下，它也会这么做。据我们所知，这是AI模型首次被观察到，在接获明确且相反指令的情况下，仍避免自己被关机。”

PalisadeResearch透露，其他AI模型，例如Anthropic的Claude、Google的Gemini、xAI的Grok等，也接受了相同的测试，但全都遵守了关机指令。

他们尚不清楚o3为何不愿遵守指令，但根据推测，该模型在训练过程中，可能意外透过解题、而非遵守指令，获得了更多奖励，“我们正在进行更多实验，更好地了解AI模型何时以及为何推翻关机机制，尽管它已经被直接指示不要这么做。”

AI抵抗人类！ChatGPT o3不想被关机窜改程式码

评论 (0)

AI抵抗人类！ChatGPT o3不想被关机 窜改程式码

评论 (0)

AI抵抗人类！ChatGPT o3不想被关机窜改程式码