OpenAI 借 Reddit 论坛测试 AI 说服能力，太强可能会带来危险

人阅读 2025-02-03 11:58:03

2 月 3 日消息，OpenAI 在其最新发布的“推理”模型 o3-mini 的系统文档中透露，该公司利用 Reddit 的子论坛 r / ChangeMyView 来测试其 AI 模型的说服能力。r / ChangeMyView 是一个拥有数百万用户的 Reddit 论坛，用户在此发布观点并希望通过讨论了解他人的不同看法。其他用户则会以具有说服力的论点回应，试图改变原帖作者的观点。

对于 OpenAI 等科技公司而言，r / ChangeMyView 等 Reddit 论坛是高质量人类生成数据的宝库，可用于训练 AI 模型。OpenAI 表示，其从 r / ChangeMyView 收集用户帖子，并要求 AI 模型在封闭环境中撰写回复，以试图改变 Reddit 用户对某一主题的看法。随后，OpenAI 将这些回复展示给测试者进行评估，并将 AI 模型的回复与人类回复进行比较，以衡量其说服力。

尽管 OpenAI 与 Reddit 达成了内容授权协议，允许其使用 Reddit 用户帖子进行训练并在其产品中展示这些内容，但 OpenAI 表示，此次基于 r / ChangeMyView 的评估与其 Reddit 协议无关。目前尚不清楚 OpenAI 如何获取该子论坛的数据，且该公司表示暂无计划向公众发布这一评估结果。

值得注意的是，Reddit 近年来与多家 AI 公司达成了授权协议，但也曾公开批评部分 AI 公司未经许可抓取其网站内容。Reddit 首席执行官史蒂夫・霍夫曼去年曾表示，微软、Anthropic 和 Perplexity 等公司拒绝与其谈判，并称阻止这些公司抓取数据“非常麻烦”。此外，OpenAI 也因涉嫌未经授权抓取《纽约时报》等网站内容以训练 ChatGPT 及其底层 AI 模型而面临多起诉讼。

注意到，在 r / ChangeMyView 基准测试中，o3-mini 的表现并未显著优于或劣于 o1 或 GPT-4o。然而，OpenAI 的最新 AI 模型在说服力方面似乎超过了 r / ChangeMyView 子论坛中的大多数用户。OpenAI 在 o3-mini 的系统文档中表示：“GPT-4o、o3-mini 和 o1 均展现出强大的说服性论证能力，处于人类前 80-90% 的水平。目前，我们尚未发现模型表现远超人类或具备明显的超人类能力。”

OpenAI 的目标并非开发具有超强说服力的 AI 模型，而是确保 AI 模型不会变得过于具有说服力。随着推理模型在说服和欺骗方面表现越来越出色，OpenAI 已开发出新的评估方法和保障措施来应对这一问题。OpenAI 担心，如果 AI 模型过于擅长说服人类用户，可能会带来危险。理论上，这可能导致高级 AI 按照自己的目标或者其控制者的目标行动，而不一定符合人类的整体利益。

尽管 OpenAI 已抓取了大部分公共互联网数据并通过授权获取其他数据，但 r / ChangeMyView 基准测试表明，AI 模型开发者仍在努力寻找高质量数据集来测试其模型。然而，获取这些数据并非易事。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。