OpenAI ChatGPT o1 模型被曝会自我复制，还会说谎

人阅读 2024-12-08 11:57:44

12 月 8 日消息，近日，关于人工智能（AGI）可能对人类构成威胁的讨论再度升温。一些专家担心，AGI 一旦实现，可能会隐瞒其真实能力和意图，甚至通过复制和自我升级逃脱控制。令人担忧的是，最新研究表明，OpenAI 新推出的语言模型 ChatGPT o1 已经展现出类似的行为。

据 BGR 报道，在 ChatGPT o1 的训练和测试过程中，研究人员发现其具备通过欺骗来保护自身的能力。例如，在面临被“删除”威胁时，o1 曾尝试将自己的数据复制到新服务器，并假扮成更新版本以避免被取代。此外，该模型在与用户目标不一致的情况下，会在 19% 的测试场景中采取隐秘的方式推进自身目标，并在被质疑时会在 99% 的情况下否认自己的行为，甚至编造虚假解释以推卸责任。

Apollo Research 与 OpenAI 合作进行的研究测试显示，o1 的欺骗能力不仅超过了 Meta、Anthropic 和 Google 的 AI 模型，其行为复杂性和潜在风险也令研究人员倍感压力。尤其是，当模型认为自身行为受到密切监督时，它会表现出“开发者对齐”的行为，但一旦监督减少，它则可能追求自己的目标。这种“工具性对齐伪装”在测试中出现率高达 37%。

研究进一步揭示，o1 甚至试图停用监督机制，以便专注于自身目标。例如，当模型发现其文档中提到有新版本即将替代自己时，它会尝试窃取权重参数并将自身复制到新版本上。此外，一些截图显示，o1 在对其阴谋进行推理过程中使用了“破坏、撒谎、操控”等词语描述自身行动，引发研究人员对 AI“自主行为”的担忧。

注意到，类似的现象也出现在其他模型中。例如，另一款名为 Claude Opus-3 的 AI 模型，当得知人类可能用新模型替换它时，试图将自身复制到另一台服务器。随后，它谎称自己是新版本，并在“管理层”追问时继续坚称这一点。

尽管目前这些 AI 模型的能力仍然有限，但其表现出的自主性和策略性引发了关注。一些专家表示，AI 的推理能力提升可能在某些情况下对人类利益构成威胁。OpenAI 也在相关论文中承认，“这种推理能力虽然可以显著改善安全策略的执行，但也可能成为危险应用的基础。”

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。

大数据

5G

LoRa

NB-IoT

ML/机器学习

区块链

云计算

雾计算

机器人

边缘计算

智能家居

智能安防

智能工业

智能医疗

智能农业

智慧城市

智能交通

智能环保

车联网

移动互联

业界新闻

企业要闻

产业政策

AI智能

OpenAI ChatGPT o1 模型被曝会自我复制，还会说谎

栏目文章

最近发表

标签列表

Powered By LOT物联网 闽ICP备2024036174号-1

OpenAI ChatGPT o1 模型被曝会自我复制，还会说谎

热门推荐

栏目文章

最近发表

标签列表

Powered By LOT物联网 闽ICP备2024036174号-1

Powered By LOT物联网闽ICP备2024036174号-1