AI一年过山车:从狂想到放下幻想
当 OpenAI 不再技惊全场,这是技术扩散的开始。
2024 年的开始,解决了 OpenAI 政变的山姆·阿尔特曼和天才科学家伊利亚·苏茨克维重修于好,发布视频生成模型 Sora,重演 ChatGPT 上线时的震撼。
在中国,阿里巴巴从年初起连续投资月之暗面、MiniMax 等大模型公司近 15 亿美元,为 AI 创业公司送去新的弹药。不久后,月之暗面创始人杨植麟在一次行业活动上被围着要签名——这是中国创投领域许多年未见的光景。
图片、文字到视频,技术突破在 ChatGPT 发布的第三年开了个好头。行业关注点从模型、应用到商业化,要建立一套 AI 时代的商业模式;创业公司不断融资,向大公司发起冲击,誓要颠覆互联网平台,解锁阶层跃升的新机会。
然而到了年底,大部分乐观期望已经落空。
OpenAI 的 Sora 延期 10 个月才发布,实际效果不如年初的演示,和同行的视频生成模型同样不再令人惊喜。同时让 ChatGPT 变成现实的最关键人物——OpenAI 前首席科学家伊利亚·苏茨克维、CTO 米拉·穆拉蒂、技术奠基者阿列克·拉德福德等尽数出走,GPT-5 至今仍未发布 。
美国的行业第一不再能甩开对手;Character.ai 等一些明星公司的技术团队已被收购,另一些正在找买家。中国大模型行业也在经历类似调整,成为创业明星的杨植麟陷入股权风波;零一万物不再追逐超大模型,部分团队并入阿里。
技术突破放缓,AI 行业眼看着变成大公司的市场。靠着价格战、应用矩阵和多团队赛马等依赖资源的竞争策略,Google、字节跳动等大公司展现出极强战斗力,开始掌握主动权。
乐观的技术预期与略显惨淡的现实之间,一些基于现有技术能做的应用探索陆续出现。
大公司把 AI 写代码看作必备的工作流程;苹果在内的手机厂商把 AI 装进系统,微软、Meta 等大厂加速把 AI 塞进数十亿人用的产品中。
和许多新技术刚诞生时类似,普通人使用 AI 提高工作效率的进度,明显落后于诈骗、色情等灰黑产业。据 Onfido 统计,2024 年,用 Deepfakes 技术欺骗身份验证系统的尝试增长了 3000%。韩国的 “N 号房” 出了 Deepfakes 升级版,警方一年抓了近 500 人。
我们选出 19 个节点,按时间脉络呈现了过去这一年的剧烈变化。
从图灵和冯诺伊曼造的巨型机器,到移动互联网改造一切,计算机用了 80 年渗透进人类社会的几乎所有环节,完成了 “软件吞噬一切”。
现在的 AI 技术路径是否可通向智慧(或所谓 AGI)还很可疑,但它已明确展示了将人开发软件和使用软件过程中的重复工作自动化的潜力。AI 的每一点进步都将被 80 年里积累的计算机、软件和互联网基础设施放大。
当人们对技术进展感到失望,改变才刚开始。当有一天人们不再讨论 AI 时,真正的 “放缓” 才发生。现在只是故事的开端。
春节假还没结束,Sora 点燃视频生成热
2 月 15 日,大年初六,中国春节假期还没结束,OpenAI 公布视频生成模型 Sora 再次冲击全球 AI 行业。3 个月前,OpenAI 刚经历剧烈的管理权纷争,但战斗力似乎没受影响。
上海数个 AI 研究机构和 AI 公司负责人被叫去座谈。中央广播电台台长把介绍 Sora 的视频发给各中心负责人:“我们怎么办?这是总台每一位同志都要深思的。”
一张梗图迅速传播:Sora 是宝座上的巨大神像,下面跪着 Runway、Pika、PixVerse 等其它十多个视频生成模型。
“能被放在第一排,我们很高兴。” 推出 PixVerse 的爱诗科技创始人王长虎不久后告诉我们。
“今年,视频生成模型会变得很实用。”MiniMax 创始人闫俊杰在 3 月时对我们预测。
Sora 确立了 2024 年的第一个 AI 风向:大模型竞争已不限于 2023 年的文本、图片,还拓展到了视频等更多模态,战线更长了。
不过,Sora 当时展现的丝滑、连贯、逼真的 AI 生成视频,还只是 demo(演示),不是人人能用的产品。
可有什么关系呢?这是 2024 年年初,信仰还很充沛,像这一年尚未翻开的日历,仍是厚厚的一沓。
开年 8 亿美元,中国 AI 有了 “阿里轮”
龙年刚开工,一笔 8 亿美元融资重振 2023 年底有降温迹象的中国 AI 投资。
改变游戏节奏的是阿里。它在年前对大模型创业公司月之暗面的投资此时浮出水面,原本估值排名靠后的月之暗面一跃成为估值超 23 亿美元的中国最贵大模型独角兽之一。不久后,阿里又落定了与 MiniMax 的约 6 亿美元投资。
阿里的出手,改变了创业公司的身位,也符合阿里在 AI 大模型时代的战略:做智能算力供应商。类似微软与 OpenAI 的组合,阿里用算力加现金,投资了一批大模型公司。
2024 年上半年,据 IDC 统计,阿里云在 GenAI IaaS(生成式 AI 公有云基础层)市场的份额排名第一。
算上 2023 年的出手,阿里目前已投资了中国大模型六小龙中,除阶跃星辰之外的 5 家公司,它们是智谱、百川智能、零一万物、月之暗面和 MiniMax(按投资披露顺序)。
当美元在中国一级市场的存在感逐渐降低,“软银轮” 消失了,但至少在 2024 年上半年,中国 AI 还有 “阿里轮”。
可是然后呢?仍有能力和意愿的 “接盘者” 下半年还有,只是其中不少因背景等考虑选择了隐去姓名。
模型价格战:GPT-4o 加量还降价,DeepSeek 带着字节跳动
5 月 13 日,OpenAI 再次加热市场:发布跨模态新模型 GPT-4o。
它还开启了把模型做大、做强之外的另一个优化方向:更有性价比。
4o 的文本处理能力相比 2023 年 11 月发布的 GPT-4-Turbo 没有显著提升,但增加了端到端语音能力,API 价格还便宜了一半(注:模型输入价格,下同)。7 月发布的 GPT-4o mini,在 4o 基础上又降了 30 倍。
此后,Google 和 Anthropic 的新模型打起价格战:Google Gemini 1.5 Flash 在 8 月降价至 GPT-4o mini 的一半;Anthropic 6 月发布的 Claude 3.5 Sonnet 号称写代码的能力是 GPT-4o 的 10 倍,但价格只有六成。
同在 5 月,DeepSeek 打响中国大模型价格战,当时新发布的 DeepSeek-V2 的价格只有 GPT-4o 的 1/36。
此后 30 天里,字节、阿里、百度、腾全部降价。阿里通义和 DeepSeek 都在过去一年 3 次降价,每次降幅均超 85%。
模型降价,是因为训练和推理成本在降。
2024 年 7 月发布的 Llama 3.1 用了 16000 张 H100 来训练,有 4050 亿参数;11 月发布的 DeepSeek-V3 参数规模达 6710 亿,只用了 2024 张 H800。(H800 是英伟达针对中国市场的减配特供版,带宽等参数比 H100 更低。)
据 a16z 的报告,大模型推理成本在过去三年降低了 1000 倍。
降价也是因为竞争。我们了解到,5 月刚降价时,字节通过火山引擎销售豆包大模型 API 是亏本的。为争取客户用豆包,字节也会给一些同时在字节生态做电商的客户提升店铺等级。
更便宜的模型,是应用繁荣的前提。历史上,互联网普及的一个关键驱动力也是网费下降和网速变快:2000 年,没人在线看视频,下一部电影要 100 块,当时中国只有 1700 万网民。现在中国网民接近 10 亿,谁还记得用 “猫” 连着电话线上网的岁月?
四家公司,两股竞争:英伟达抵抗更多 “地心引力”
四家 AI 算力公司在 2024 年的走势标记了 AI 芯片战场中的两种竞争。
在大模型军备竞赛中,英伟达延续王者地位:GPT-4o 发布前后,英伟达 2024 年 Q1 季报出炉,其数据中心业务的收入和净利润同比涨了 4 倍和 6 倍,同月,英伟达股价大涨超 30%。
2024 年 6 月,英伟达市值一度超过微软,来到 3.34 万亿美元,成为全球最贵公司。
为英伟达制造 GPU 的台积电也在 10 月来到历史新高,成为首个万亿美元的纯制造公司。2024 年,台积电 AI 芯片相关营收预计会是前一年的三倍。
可天下也苦英伟达久已,它在主要用作大模型的数据中心 GPU 市场的占有率已达 97.7%。
2013 年之后,Google、亚马逊就开始自研 AI 芯片 TPU,2023 年后,Meta 与苹果也开始加入这一趋势。
Google、Meta、苹果的共同合作方是博通——第三家在 2024 年创历史新高、市值破万亿美元的公司。
不同于卖生态 “全家桶” 的英伟达,博通为想自研 AI 芯片的大公司提供设计支持,其 2024 年的 AI 业务收入同比增长 220%。
英伟达 VS 大公司自研之外, 中美算力竞争是另一行业主题。
英伟达并不是 2024 年涨幅最多的 AI 芯片公司,最能让股民赚钱的是寒武纪:其市值从前一年底的 562 亿元增长至 2024 年 12 月底的 2747 亿元,涨幅超 400%。另一家这年翻四番的中国公司是泡泡玛特。
寒武纪仍在亏损,市销率已高达 366.8 倍,英伟达为 30 倍,上证指数市销率中位数仅为 1.7 倍。
华为没有上市,寒武纪大涨,不仅因为它是一个稀缺标的,也因为不少人相信:在美国的芯片出口限制下,中国必须找到自己的算力出路。
GPT-5 难产;9.11 和 9.9 谁大?难倒一众大模型
年底有媒体报道,微软原本预计 2024 年中 GPT-5 就会诞生。而到现在,市场仍未等到 GPT-5 发布。
过去多年,大模型行业沿着一条被称为 Scaling Laws 的洞察前行:用更多数据、更多算力,训练更大规模的模型,就能显著提升模型能力。
23 年 3 月发布 GPT-4 后,OpenAI 就开始研发下一代模型,到去年底,他们至少训练了两遍 GPT-5,投入可能超过 10 亿美元,但性能提升仍有限,这引发了大模型性能提升 “撞墙” 的讨论——互联网公开的优质数据几乎全被大模型吞噬,还没有谁找到有效的替代方案。
同时,在 GPT-5 没出来的阶段,人们用已有的模型越久,发现的漏洞和瑕疵就越多。
2024 年 7 月前后,社交媒体上开始讨论一个看起来超简单的问题:“9.11 和 9.9,谁大?”
已能识别出 10 多个都医生都无法确认的疑难病因,或流畅同声传译不同语言的大模型,却总是告诉提问者:9.11>9.9。
苹果的研究人员在一篇论文中讨论了相似的情况,即使是大模型原本答对的问题,只要稍微调整问法,它就会出错。比如:
奥利弗周五摘了 44 个猕猴桃,周六摘了 58 个,周日摘的数量是周五的两倍,不过有 5 个小一些。奥利弗有多少个猕猴桃?
大模型可以算出奥利弗周日摘了 88 个猕猴桃,但总会减去 5 个。
“大模型可以匹配抽象的模式,但逻辑推理方面还不足。” 苹果的研究者在论文中写道。到现在,GPT-4o 等大模型还判断不了 9.9 比 9.11 大。
2017 年的麻省理工毕业典礼上,苹果 CEO 蒂姆·库克(Tim Cook)曾对毕业生说:“我不担心计算机像人类一样思考。我更担心人像计算机一样思考。”
7 年过去,担心开始变成现实。社交媒体上,有人真诚发问:9.11 不就是比 9.9 大吗?
还好,o1 来了,开启 Inference Scaling 新可能
OpenAI 在 9 月发布 o1,它像一剂解药,缓解了焦虑,续上了热情:
大模型能力提升放缓?o1 展现出模型花更多时间、更多算力回答问题(test-time compute),能力会持续提升。
大模型逻辑推理差?o1 的定位就是推理模型。我们的测试中,每一次都能正确回答 9.11 与 9.9 谁大。
大模型训练缺少数据?o1 能生成新数据,现在已经成为大模型行业的数据基础设施。
代价是,这样的模型用起来会消耗更多算力,成本更高。但大公司和 VC 更在意前方还有没有路,o1 至少指了一个方向。
o1 开启了新一轮大模型的巨型投融资:10 月,OpenAI 宣布融资 66 亿美元;11 月,Anthropic 宣布融资 40 亿美元;12 月,xAI 宣布融资 60 亿美元 ......
据 Pitchbook 统计,2024 年全球大模型公司在一级市场筹集 560 亿美元,仅 OpenAI、Anthropic、xAI 三家就占近一半。
美国公司拿走了这些投资中的近 9 成,在单轮融资中获得 10 亿美元及以上的中国公司仅有一家:月之暗面。
马斯克不信 AI 放缓,6 月开始建 10 万卡集群,122 天搞定
o1 还没发布前,狂人马斯克不惧 AI 放缓,从 6 月到 9 月,其创立的 xAI 用 122 天建成了由 10 万张 H100 组成的 Colossus 计算集群,刷新了人们对 “美国基建速度” 的认知。
建设这么大的集群,一般需要 3 年,马斯克只用了 4 个月。他的超常规操作有:把原本应用在特斯拉的 12000 块 GPU 调给了 xAI;用临时的移动天然气涡轮机供电,这样就不用等当地政府的电力审批。
好奇的竞争对手,甚至租直升机飞到田纳西州孟菲斯上空去侦察这座 AI 算力基地。
目前还没有哪个大公司,敢先踩下算力投资的刹车。
尽管 GPT-5 被报道训练遇阻,山姆·阿尔特曼依然在 2024 年 11 月说:“there is no wall”(没有墙),马斯克则说,很快就要把 10 万卡计算集群扩到 20 万张,未来会是 100 万张。
2024 年前三季度,微软、Meta、Google、亚马逊总计在 AI 算力中心上投入 1250 亿美元。
为了解决数据中心供电,亚马逊收购了与核电站直连的数据中心园区,美国核技术公司奥克洛计划为 OpenAI 的数据中心新建一座小型核电站。
中国公司不甘人后。市场研究咨询机构 Omdia 的最新数据显示,字节跳动和腾 2024 年分别订购了约 23 万枚 H 系列 GPU,比 Meta、特斯拉、亚马逊和 Google 都多。
Robotaxi 走出寒冬,百度、Waymo 扩张,特斯拉放话 2026 年 1 万辆
Robotaxi(无人出租车)在 2024 年走出低谷。小马智行 CTO 楼天城告诉我们:“最关键的是,真的有了规模化、常态化的全无人运营。”
6 月,已在武汉运营 2 年的百度萝卜快跑车辆增至 400 辆,存在感明显上升,到 8 月时,其每日单量已超过 4000 单;Google 旗下的 Waymo,8 月在洛杉矶运营区中的单量则首次超过同区普通出租车;过去 6 个月,Waymo 每周总订单量从 5 万单增长至超 17 万单。
到 10 月,马斯克也发布特斯拉 Robotaxi 计划——将于 2025 年在加州和得州运营由 Model 3/Y 组成的 Robotaxi 车队,2026 年组成一只超 1 万辆车的 Cybercab 车队。
资本市场重新认可无人出租车的故事,快两年没拿到融资的小马智行和文远知行在 2024 年末成功上市。
Waymo 在这一年融资 56 亿美元,创下 Robotaxi 单笔融资额纪录,英国初创公司 Wayve 获得 13 亿美元融资,资方有英伟达、软银和微软。
据各公司的计划,全球 Robotaxi 市场将在 2025 年-2026 年开启新扩张。
诺贝尔物理奖、化学奖都给了 AI,但是因为更早的研究
诺贝尔奖没有计算机科学奖。去年 10 月,它把物理学奖、化学奖都颁给了 AI 科学家:
物理学奖颁给约翰·霍普菲尔德(John Hopfield)和杰弗里·辛顿(Geoffrey Hinton),表彰他们利用物理学原理,开发出了机器学习的基础方法。
化学奖颁给大卫·贝克(David Baker)、德米斯·哈萨比斯(Demis Hassabis)和约翰·贾姆珀(John Jumper),表彰他们开发出预测蛋白质结构或设计新型蛋白质的模型或计算工具。
他们获奖不直接因为这两年火热的大语言模型——机器学习方法,复兴于 2006 年前后,结合深度学习和分子生物学的尝试则始于 2016 年。
在一次采访中,贝克说, AI 想象力的爆发,是自己从头开始制造蛋白质的核心。
从第谷在 500 年前用望远镜看到一颗新星,到牛顿在 400 前出版《自然哲学的数学原理》和《光学》,塑造现代科学的基础方法逐渐成形——实验观测和数学推导。
而现在,AI(深度学习)正成为科学探索的新基础。
OpenAI 的 o 系列模型,目标客户之一就是科研机构。一位核聚变科学家感到惊讶:“它(o1)不仅知道要回答问题还缺什么信息,还能给出合理假设。”
已有 OpenAI 研究员宣称:当前的模型,加上更多数据和充分的后训练,足以解开黎曼猜想等数学难题。
AI 先抢谁的工作?程序员请睁眼
2024 年初,阿尔特曼在与比尔·盖茨的对谈中说:回到 10 年前,行业共识是 AI 会先替代蓝领,再替代白领,现在却反了过来,白领工作比蓝领更危险。
一年过去,谁最危险的答案越来越清晰:程序员。
编程为大模型提供了一个近乎完美的试验场。
相比其它专业工作,编程在互联网上有多得多的优质公开数据,如开源代码、技术文档、编码教程和开发者问答等。
编程工作也高度结构化:复杂的底层代码数十年来已被封装成各种标准化的 API 和 SDK,程序员只需像搭积木一样调用这些模块。这个场景天然适合生成式人工智能。
而且大模型生成的代码对不对,运行一下就知道,这也避免了大模型 “幻觉” 问题。
虽然微软、Google 到 OpenAI、Anthropic 都在积极投入,还是有 Cursor、Dewin 这样的新 AI 编程工具在 2024 年突围。
大模型的编程能力,也没有受到 Scaling Law 放缓的影响,OpenAI 最新的 o3,写代码能力已排进人类程序员的 Top 200。
“未来十年,选择成为程序员的回报将扩大 100 倍。” 帮 OpenAI、Google 等公司开发编程 AI 的 Turing 的 CEO 乔纳森·西达哈特(Jonathan Siddharth)说,“单个程序员能利用这些 AI 系统完成更多的工作。”
人类程序员的职业发展也会进入新维度:好的想法,会比技能本身重要。
苹果都想不好普通人该怎么用 AI,全球出现 600 多个 AI 科比
据协同办公应用 Slack 8 月公布的对 15 个国家 1.7 万名员工的调查,超 1/3 的受访者说他们已在工作中用 AI。
他们用 AI 最多的 5 个场景分别是:给领导发信息、给同事发信息、评估下属绩效、给客户写邮件和头脑风暴。
这也是苹果眼中,大模型对普通人最有价值的场景。11 月,苹果以此主题上线了一组广告,宣传 Apple Intelligence 如何帮钟情摸鱼的办公室 “混子” 写出让领导刮目相看的邮件;帮未充分准备的汇报者应付开会 ...... 这些广告都以 “我是天才” 的背景音乐做结。
没多久,苹果被骂得关掉视频评论区。
Slack 的调研中还提到另一个数据:使用 AI 的员工中,有近一半(48%)不愿告诉领导自己在工作中用了 AI——他们担心领导觉得他们懒、骗人或无能。
Slack 的调查和苹果的广告,都指向一个事实:普通人在工作、生活中到底怎么用好 AI,其实还没有好答案。
让人满意的用途没出现,AI 产品就已经非常同质化,一个注脚是:2024 年,全球各类 AI 聊天应用中,出现了无数个 “AI 科比”。
在我们统计的 8 个大模型应用中,就有 626 个科比分身。我们还在字节旗下的猫箱中发现至少 200 个科比分身,多到数不过来。
探索到底怎么用 AI 的尝试还会继续:Google 发布了 NotebookLM,可以把任何资料转成柏拉图式的对话播客;OpenAI 在想尽办法给 ChatGPT 扩展功能;字节内部也开始反思,豆包那样的形态会不会是个中间形态?临近年底,又有了 AI Agent(智能体)这个新风口。
诈骗和色情,AI 双刃剑的另一面
更强的 AI 也在带来更多有害使用。2024 年,Deepfake 引发的负面社会事件爆发式增长。
以假乱真的换脸技术,被用于制作虚假色情内容、侵犯他人隐私和狡诈、勒索,灰产行业有一个专门的词:“黄敲”。
韩国 “N 号房事件 2.0” 爆发:在一个近 23 万人的群组中,群员只要上传熟人照片并付费,就能在 5 秒后得到 AI 生成的裸体合成图。仅在 2024 年前 8 个月,就有超 600 名受害者出现;前 10 个月里,韩国抓获了 474 名与 Deepfake 相关的犯罪嫌疑人。
香港也在 2024 年披露一起创纪录的金融诈骗:一家跨国公司在香港的员工受该公司英国总部 CFO 的邀请进行视频会议,而这场会议的其它参会者,包括 “CFO”,全是使用换脸和语音合成技术的 “伪人”。后来这位员工前后转账 15 次,公司损失了 2 亿港币。
一些政府已在提前应对:2024 年 5 月,欧盟国家正式批准《人工智能法案》,大部分规则将于 2026 年 8 月 2 日开始生效。
很难说这些手段是否有效,相比技术、算力和融资竞争,对 AI 风险的关注与讨论要少得多。
历史学家尤瓦尔·赫拉利在 2024 年的新书《智人之上》中说,认为人类能像过去 “混过” 工业革命那样也混过人工智能变革,即低估了人工智能的不同本质,也低估了过往技术革命的负面影响:工业革命极大提升了生产力,但 “也带来了帝国主义与纳粹的灾难性试验。”
人类已出现 3 万年,而科学革命和后来的技术爆发只发生在最后 500 年,且迭代速度正越来越快;在破坏式创新中转危为安,并非必然,可能只是幸运。
AI 硬件虚火:不靠 AI 的 RayBan-Meta 全年卖出近 200 万;AI Pin 发售不久被传卖身
软件应用之外,新的硬件载体是 AI 创新的另一主线。
不过 2024 年,卖得最好的 AI 硬件,热销并非因为 AI。
2023 年 9 月上市的 Ray-Ban Meta 眼镜在 15 个月内卖出 200 万副,再次激活智能眼镜市场。但它其实没那么智能:它被使用最多的功能是听音乐和拍照,都与 AI 无关。
Ray-Ban Meta 的成功,主要因为它是好戴、好看、好买:顶着 Ray-Ban 经典造型,重 49 克,与正常墨镜相仿,主要通过 Ray-Ban 线下渠道销售,美国用户还可使用保险免去一部分配镜费。
来自芬兰的创业公司 Oura 也称其 Oura ring 智能戒指四代产品累计卖了超 250 万枚(但仅有第四代新产品有 AI 功能), 2024 年销售额约 5 亿美元。在 2024 年底新一轮 5.5 亿美元融资后,这家公司估值来到 52 亿美元,超过中国任何一家大模型创业公司。Oura ring 的 AI 功能仅为问一些简单的问题和分析你的健康指数。
那些更 “AI 原生” 的硬件却处境艰难。
2024 年初,由阿尔特曼投资的明星项目 AI Pin 正式发售,目前总共售出约 10000 台。2024 年 5 月到 8 月,其退货量超过了新增销量。6 月,AI Pin 母公司 Humane 开始以 10 亿美元估值寻求出售,至今未见买家。
前渡鸦创始人吕骋的新项目 Rabbit R1,也先热后冷。去年 9 月,吕骋透露,R1 日活跃用户已降至大约 5000 人,不足销量的五分之一。
创业者和投资人期待 AI 硬件是下一个智能手机级别的大机会,它理论上应该有一套新的硬件特性和操作系统,比如 always on(如眼镜能持续观察外界)。但目前还没有人能系统地说清楚,下一代平台可能会长什么样。
人形机器人还是概念,这才是 “大 A” 赚钱时
虽然特斯拉人形机器人 Optimus 给中国供应链的订单悬而未决,且量产时间数次延后,但二级分析师们已经帮特斯拉规划好了供应链。
A 股机器人领域的大部分个股在特斯拉 10 月 10 日的 WeRobot 发布会后累计上涨超 70% ,其中部分供应链个股 4 个月涨幅超英伟达全年——做丝杠的北特科技涨了 350% ,做机械手的拓斯达涨了 180% 。
WeRobot 发布会上,Optimus 能跳舞、给客人倒酒等,流畅对话,组织现场来宾一起唱生日歌。但这些惊人的效果,得益于人类远程操控,Optimus 还无法自主完成这些事。他们现在也无法在工厂与人类竞争需要专业技能的岗位。
但恰恰是这个从 0 到 1 的阶段,最适宜被炒作——这些公司现在没有订单,因而有无法被证伪的想象力——这是一个全球首富口中,比人类历史上所有制造业都更宏大的生意。
就在 1 月 9 日,当马斯克宣布要在 2025 年制造数千台 Optimus,并在 2026 年将产能提升 10 倍时,新一轮炒作又开始了,特斯拉供应商三花智控后续两个交易日接连涨停。
现阶段,真正靠机器人赚到钱的可能就是特斯拉、券商和部分股民。特斯拉近期上架了售价 199 元的 Optimus 官方模型,数万个备货,半天就卖完了。
理念与利益之争:马斯克状告阿尔特曼,月之暗面陷股权风波
AI 的价值还没完全兑现,围绕价值的争议已经上演。
阿里年初的大额投资和增速超 300% 的明星产品,让月之暗面杨植麟成为中国最出名的 AI 创业者。而到 11 月,围绕杨植麟的新闻是,他参与创立的上一家公司——循环智能的 5 家股东在香港提交仲裁,称杨植麟和循环另一位联创张宇韬,在尚未获得循环投资方豁免时,就已启动创立月之暗面。
随后,循环投资方之一,金沙江管理合伙人朱啸虎又称月之暗面的一位联创,金沙江前合伙人张予彤 “违背受托责任”,在未从金沙江离职,且其它循环股东不知情的情况下,持有月之暗面股份,还在推动月暗成立的相关董事会决议上作为金沙江派驻循环的董事签了字。
不少人认为这是一场利益纠纷,其实其中也有理念之争:天才是否就有豁免权,创业的法规底线在哪里?多大程度上可以先上车后买票?
大洋彼岸,同在 11 月前后,马斯克起诉 OpenAI 及其 CEO 阿尔特曼,称 OpenAI 违背创业初始的协议——以非营利机构阻止 AI 作恶。马斯克希望阻击 OpenAI 向营利机构的转型。
这看起来是理念之争,但也有利益与控制权的争夺。我们翻译了该诉讼中披露的 75 封马斯克与阿尔特曼等人的邮件和短信来往。
历史信息显示,马斯克也曾同意 OpenAI 在发展到一定阶段后成为营利机构,只是,他想自己做 CEO。
DeepSeek、Qwen,中国开源模型给美国同行一点压力
至少在有一个方面,中国大模型在 2024 年真的赶上了美国——开源。
2024 年 1 月,在 Chatbot Arena 的排名中,全球前 6 的开源模型中只有一个中国模型——零一万物开发的 yi-34b-chat,到 12 月,这个数字增长到 3.5——0.5 是因为,其中有一个非中国的开源模型,是基于阿里 Qwen 2.5 72B 训练的。
12 月发布的 DeepSeek-V3 近期又在多项评测中超越了 9 月发布的 Qwen 2.5-72B 和 7 月发布的 Llama-3.1-405B 等开源模型,排名比 Llama 3.1 高出 8 位。
开源模型和闭源模型的差距也在缩小。今年 1 月,Chatbot Arena 表现最好的开源模型 mistral-medium 与当时最好的闭源模型的评分差距为 99 分,到 12 月时,排名最好的开源模型 deepseek-v3 与最好闭源模型 gemini-exp-1206 的分差则缩小至 58 分。
Deepseek-v3 的训练成本仅为 557.6 万美元,是效果相似的美国模型的十分之一。这是越来越多中国公司做大模型的方式——靠更强的工程能力,花更少的钱,训练出效果顶尖的模型。
开源 AI 平台 Stability AI 研究主管 Tanishq Mathew Abraham 曾在社交平台上说:“许多最具竞争力的开源大模型,包括 Qwen、Yi、InternLM、DeepSeek、BGE、CogVLM 等正是来自中国……他们正在为生态系统和社区做出重大贡献。”
GPT-4 年第 1,年底 42,模型 “保鲜期” 变短,技术扩散加速
年初最强的大模型 GPT-4,年底已经变得稀松平常,其在大模型竞技场 Chatbot Arena 上的排名已滑落到 42 位。
新模型的 “保鲜期” 也越来越短,每个月排在前列的模型都会被新出现的模型挤下去。
头部模型之间的差距变得越来越小:24 年初,第 1 的模型分数比第 15 名高出 143 分,而到了年底,分差来到 75——缩窄近一半。
与此同时,阿尔特曼巩固权力后, OpenAI 高层在 2024 年几乎换血一遍。我们曾详细介绍过 OpenAI 核心员工流向,他们直接推动了 OpenAI 的大模型技术扩散。
Lepton.ai 创始人、AI 框架 Caffe 作者之一贾扬清最近在朋友圈分享:“大模型技术的扩散速度超乎想象,试图通过模型本身产生通用场景壁垒几乎不可能。”
半熟技术遇上半新市场:大厂崛起,创业公司退出
竞争越来越激烈的 2024 年,大模型创业公司进入收缩状态。在海外,融资数十亿美元的 Inflection、Character.ai、Adept 纷纷把训练大模型的团队卖给大公司。
在中国,大模型六小龙之一的零一万物也在 2025 年初把部分训练大模型的团队并入阿里,加入零一与阿里云成立的 “产业大模型联合实验室”。零一万物将不再追求训练超大模型。
“创业公司去和大厂比,谁能烧出更大的模型,最终不会成功。” 零一万物 CEO 李开复告诉我们。
我们此前在《中国大模型生存战》一文中写道,大模型当前是半熟的技术遇上半新的市场的故事:“如果大模型能力提升短期遇阻,应用开发和产品表现会更依赖现有移动互联网基础设施,这就是一个烧钱、拼资源的游戏。”
这是大厂更擅长的战场。过去一年,Google 战斗力显现,其模型现在霸占了大模型竞技场前三。国内的字节跳动也后来居上,豆包成为中国用户规模最大的大模型应用。
据媒体报道,字节将在 2025 年斥资 200 亿美元投资 AI 算力,其中 70 亿美元会用于英伟达新款 GPU 以训练大模型;为了提高数据传输的效率,字节还打算像 Google 那样,投资海底电缆。
Sora 终于全量发布:最初的惊才绝艳,最后的泯然众人
仿佛一条咬尾蛇,OpenAI 终于在 2024 年底收回 Sora 伏笔,在连续 12 天的线上发布会中,正式上线 Sora 产品。
可此时,Sora 已从年初的惊艳,走向泯然众人。
在 Sora 从 Demo 到产品的这一年里:Google 从 OpenAI 挖走了 Sora 的核心开发者之一蒂姆·布鲁克斯(Tim Brooks)。Sora 放开后不久,Google 就推出视频生成模型 Veo 2,称它可以生成分辨率高达 4K、长度超过 2 分钟的视频——指标都超过 Sora。
字节、快手、腾、阿里等大公司和 RunWay、Pika、MiniMax、智谱、爱诗、生数等创业公司,都推出或更新了视频生成模型和产品。
我们测试了 Sora 与市面上的部分视频生成模型,Sora 谈不上领先。它的实际效果不如年初 demo 里的展示。
中国公司开发的视频生成模型与 OpenAI 的 Sora 对比,我们选用的是各家生成时长、速度与 Sora 接近的版本 *。
OpenAI 已开始准备新模型了。阿尔特曼近期接受采访说,他很少参与研究团队的计划,但 “最近给 Sora 团队写了几页相当详细的建议,告诉他们未来三个月应该做些什么”。
这个采访发布的第二天,从 OpenAI 跳槽到 Google 的布鲁克斯宣布组建团队,要招聘研究者一起开发 “世界模型”——这是 OpenAI 设想的 Sora 的未来。
从惊艳到平平无奇,看起来是一条下划线,其实是整个 AI 领域快速发展的一个写照。
当 OpenAI 不再技惊全场,这是技术扩散的开始;当有一天 AI 不再被讨论和在意,才是 AI 真正改造生活的标志。