AI 科学家吴恩达长文盛赞 DeepSeek:中国正在生成式 AI 领域追赶美国
2 月 1 日消息,斯坦福大学计算机科学系客座教授吴恩达(Andrew Yan-Tak Ng)昨日在 X 平台发文力挺 DeepSeek:“中国在生成式 AI 领域正追赶美国”。
附吴恩达观点大意如下:
本周关于 DeepSeek 的讨论让人们更加清晰地看到了几个显而易见的发展趋势:
中国在生成式 AI 方面正在追赶美国,这对 AI 供应链产生了深远影响。
开放权重模型正在将基础模型层转变为商品化产品,为应用开发者提供了更多机会。
扩大规模并非推动 AI 进步的唯一途径。尽管在处理能力上有着极大的关注和炒作,但算法创新正迅速降低训练成本。
大约一周前,总部位于中国的 DeepSeek 发布了其令人瞩目的 DeepSeek-R1 模型,该模型在基准测试中的表现与 OpenAI 的 o1 相当。更为重要的是,DeepSeek-R1 作为开放权重模型发布,并采用了宽松的 MIT 许可。上周在达沃斯会议上,许多非技术领域的商业领袖向我询问了这款模型。而在周一,股市出现了“DeepSeek 抛售”:英伟达和其他多家美国科技公司的股价大幅下跌。(截至写作时,一些股价已有回升。)
DeepSeek 让许多人意识到以下几点:
中国在生成式 AI 领域正赶超美国。2022 年 11 月 ChatGPT 发布时,美国在这一领域远远领先于中国。然而,过去两年里,中国的进步非常迅速,许多来自中国的模型,如通义千问(我的团队已经使用了几个月)、Kimi、书生 InternVL 和 DeepSeek,已经显著缩小了与美国的差距,尤其在视频生成领域,中国已在某些时刻超越了美国。
我对 DeepSeek-R1 作为开放权重模型发布感到非常高兴,同时它的技术报告也提供了大量细节。而与此形成对比的是,一些美国公司通过炒作人类灭绝等假设性的 AI 危机来推动监管,试图压制开源发展。
如今,开源 / 开放权重模型已成为 AI 供应链的核心组成部分,许多公司将会使用这些模型。如果美国继续打压开源,最终中国将在这一领域占据主导地位,许多企业将使用更多符合中国价值观的模型,而非美国的。
开放权重模型正在加速基础模型层的商品化。正如我之前提到的,大语言模型 token 价格迅速下降,开放权重模型加剧了这一趋势,也让开发者拥有更多选择。OpenAI 的 o1 每百万输出 token 的费用为 60 美元,而 DeepSeek-R1 的费用仅为 2.19 美元,这种近 30 倍的价格差异引起了许多人的关注。
基础模型的训练与 API 销售业务非常艰难。许多公司仍在寻找收回巨额训练成本的途径。红杉资本的文章《AI 的 6000 亿美元问题》很好地说明了这一挑战(不过需要强调的是,我认为基础模型公司做得非常好,也希望它们能够成功)。相比之下,在基础模型上构建应用程序则为商业提供了更多机会。既然其他公司已经花费数十亿美元训练这些模型,现在你只需要花很少的钱就可以使用它们,开发客户服务机器人、电子邮件摘要工具、AI 医生、法律文书助手等。
扩大规模并非 AI 进步的唯一方式。围绕规模扩展模型已成为推动 AI 进步的重要话题。诚然,我曾是规模扩展的支持者之一。许多公司通过炒作这一话题筹集了巨额资金,宣称通过更多资本,它们能够扩大规模并可预见地推动进步。因此,规模扩展成为了焦点,而忽略了更多进步的途径。由于美国对 AI 芯片的禁运,DeepSeek 团队不得不在性能较低的 H800 GPU 上进行优化,以替代 H100 GPU,最终使得模型训练的计算成本(不包括研究费用)低于 600 万美元。
是否这会减少计算需求仍待观察。降低每单位商品的价格有时会促使人们花费更多的总金额来购买该商品。我认为,在长期内,智能和计算的需求几乎没有上限,因此,即使变得便宜,我依然看好人类对智能的需求会越来越大。
我看到在 X 上关于 DeepSeek 进展的各种解读,仿佛它是一面镜子,反射出每个人不同的看法。我认为 DeepSeek-R1 涉及到的地缘政治问题仍有待解决,同时它也为 AI 应用构建者带来了极大的机会。我的团队已经在构思一些新想法,这些想法只有通过使用一个开放的先进推理模型才能实现。现在是一个构建的好时机!
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。