即梦对阵可灵，重演抖音反超快手？

人阅读 2024-12-26 18:08:06抖音

快手可灵，只是抖音即梦的下一个目标罢了。

撰文|蓝洞商业赵卫卫

年初从抖音 CEO 位置上辞职的张楠，应该度过了一个充实的 2024 年。

在中央美术学院设计学院四层阶梯空间里，张楠这位曾经的艺术生坐在 C 位，微笑着与一群大学生合影留念，她是评委之一。这是一场 AI 交互创新大赛的分享交流会，主办方就是张楠如今负责的业务重点：剪映旗下的 AI 产品即梦，这被视作一款可能再造抖音的产品。

几天之后，张楠公开把即梦定义为「想象力世界」的相机，而抖音是一个「真实世界」的相机。

要打造想象力的世界，创新的来源更多是年轻的头脑。抖音的成功离不开年轻的高校学生，他们曾是抖音早期运营团队关注的重点人群，各种经典的挑战类活动，都是靠着这些年轻的创作者们踊跃参与而不断传播开来，但与早年间抖音运营没什么钱、靠打感情牌不同，如今，即梦 AI 交互创新大赛一等奖是 10 万元的奖金。

得奖人赵纯想并不是学生，而是一个年轻的独立开发者，此前凭借一款饮食记录的产品「胃之书」崭露头角。而这次获奖的作品，是一个 AI 视频生成镜头精细控制 UIUX 方案，在展示的 2 分钟 Demo 中，导入一张《天堂电影院》的经典场景图，用户就可以生成一段视频，实现推拉镜头、特写、窗外鲜花盛开等 AI 创作。

而在即梦面世前三个月，快手可灵已经在国内率先上线了视频生成大模型，它们同样没有忽视高校里的年轻人，快手可灵与中国美术学院等高校联合举办了 AI 创作大赛，获得一等奖的三个作品，聚焦生活、广告和自由发挥主题，分别拿到了奖金 36666 元。

Sora 打开了为真实世界建模的 AI 大门，即梦和可灵则顺着抖音和快手走过的路，用更饱和式投入，以大力出奇迹。

更大的竞争就在不远的 2025 年，网传一份对字节跳动 AI 视频生成产品的调研纪要显示，「字节希望在其生态内使用 AI 能力，认为明年各生态将形成竞争闭环。明年五一之前，扣子智能体平台、豆包、抖音和 B 端的能力会形成关联的生态网，文生视频将会有更多的体现和使用场景。」

2025 年，在电商广告、短剧等多个市场，抖音即梦或许将与快手可灵正面交锋。

高开难高走

「高开低走」与「低开高走」，是现在抖音即梦与快手可灵最大的差别。

QuestMobile 最新数据显示，即梦上线当天即在抖音平台引发了高涨的讨论热度，可灵 AI 通过热度的持续积累也在快手站内出现热度峰值。但一个明显的不同是，即梦的内容互动量在一个月高开低走，而可灵的内容互动量在一个月内低开高走。

这是推广策略、用户体验、市场竞争等多种因素共同作用的结果，但一个最直接的原因，可能就是即梦的产品发布较晚，体验不如预期，用户深入使用之后，很容易区分与同类产品在生成内容上的质量和稳定性，即便初始阶段获得了大量预热，目前即梦在热度上仍不及可灵。

这并非意味着即梦的绝对落后，有 AI 产品深度使用的用户认为，当下国产 AI 产品想要用好，就不能单用一个，尤其是在文生视频创作中，用户选择的做法往往是用即梦来做前期的文生图，然后再用可灵来制作图生视频，因为「即梦的 AI 生图比较优秀」。

字节调研纪要同样显示即梦和可灵之间差距很大，即梦日活用户在 20 万-22 万之间，其中 70% 为个人或小型 MCN 工作室，大型企业较少，付费用户 2.5 万人左右，月订阅付费均价在 50 元左右；而同期可灵服务用户超 500 万，累计付费用户超 200 万，付费金额累计约千万级别。

这种调研纪要难辨虚实，因为二级市场爆火的「豆包概念股」，字节跳动官方曾对投资者们做出风险提示，以免遭受不必要的投资损失。

而快手可灵之所以「低开高走」，一方面是视频生成大模型本身的能力更稳定，占据了先发优势，另外一面则是营销策略的成功。「蓝洞商业」在《快手可灵，把压力给到了抖音剪映》中已经提到，当时快手通过海外科技大 V 测试可灵生成的案例，成功营造出其在海外市场火爆的氛围，进而「出口转内销」。

半年过去，目前可灵在海外市场的关注度仍远高于即梦，社交媒体 X 的关注人数是即梦的 67 倍。

就在张楠出现在火山引擎大会上，发布即梦最新消息的当天，快手又升级了可灵大模型，宣称在内部评测中比此前 1.5 模型整体效果提升 195% 。而此前一个月的三季度财报会上，创始人程一笑也提到对可灵的憧憬：可灵 AI 的商业化单月流水超千万人民币，有信心在明年实现收入规模的快速增长。

「高开低走」的即梦希望成为一种新的创造和体验方式，根据调研纪要，明年即梦没有明确的商业回报目标，但要有商业模式，「盈利要往后放」，明年即梦的重点将是与媒体、影视制作合作等产品形态的落地。

快手又将陷入包围战

抖音不是第一个做短视频的，却在 2018 年开始超越快手，后来居上成为短视频赛道的第一。张楠曾总结过崛起的四个关键因素：全屏高清、音乐、特效滤镜、个性化算法推荐技术。

如今，即梦对阵可灵，能否重演抖音对阵快手的故事？

即梦目前只是字节跳动在多模态大模型应用层的一款产品，隶属于抖音旗下的剪映团队，背后支撑服务的是字节跳动云服务的火山引擎。在火山引擎官网的模型广场上，字节跳动提供 20 个大模型产品，遍布文本、语音和视觉多个类型，此外火山方舟还提供月之暗面和智谱 AI 的产品。

AI 可能成为字节跳动下一个核心业务支柱，相比之下，快手磁力引擎的官方网站上，很难找到相关大模型商业应用的展示位。

字节跳动在大模型领域的激进姿态，今年早已经通过 C 端的产品豆包展现出来。今年 9 月，移动数据调研机构 Sensor Tower 曾发布全球 AI 应用报告，其显示了 ChatGPT 是 1-8 月全球下载量最多的 AI 应用，谷歌的 Gemini 排在第四，字节跳动的豆包排名第五，而且是榜单上唯一的中国产品。

这离不开抖音丰沛的流量广告和投放支持，豆包和 Kimi 在今年的广告市场上投放竞争激烈，根据广告情报分析平台 AppGrowing 统计，豆包智能助手 4 月、5 月的投放金额接近 1800 万元，等到 6 月上旬，投放金额飙升至 1.24 亿元，而且在抖音站内限制了 Kimi 在内的大模型广告投放。

「营销预算方面，即梦在 12 月预算开始提升，明年第一季度，尤其是春节前后将提到亿级别的投入。」字节调研纪要提到。而除了营销，字节跳动在芯片底层储备上也不可小觑。英国《金融时报》报道称，字节跳动采购了约 23 万片英伟达芯片，已成为英伟达人工智能芯片的最大中国买家；The Information 也在 9 月份报道称，字节跳动今年订购了超过20 万台 Nvidia H20。

所以基于豆包在国内大模型市场取得的领先地位，未来的看点是，抖音和豆包如何联动即梦，这也意味着，快手一枝独秀的可灵，将陷入字节跳动大模型的包围战。

今年 9 月，对标 OpenAI 的 Sora，字节跳动发布了两款对标文生视频工具 PixelDance 和 Seaweed，即梦 AI 已经接入了豆包，其中支撑即梦的就包括能力更优秀的 PixelDance，官方介绍称，能够生成高质量的长达两分钟的 1080p 分辨率视频，擅长描绘复杂的运动和物体之间的互动。

目前看，不论是抖音还是快手，AI 生成视频最主要的落地场景都是趋同的，除了 C 端用户收费之外，B 端场景一个是服务于短剧等影视制作和后期市场，另外一个则是服务于广告和电商内容营销，比如商品素材展示上生成不同的图片。

在火山引擎大会上，张楠曾展示过两个即梦创作者的 AI 短片，其中一个就是今年 7 月份上线的科幻短剧《觉醒》，当时在抖音单日点赞破 40 万；而同一时期，快手的可灵也打造过一部《山海奇镜之劈波斩浪》，同样都属于试水制作。

但实际上，AI 生成视频对影视制作只是辅助性的，目前阶段仍然是小规模制作，要完成大批量的影视后期制作，即梦和可灵都是顺着 Sora 类似的 Dit 架构（一种结合了 Transformer 架构的扩散模型，用于图像和视频生成任务）在前进，都有很长一段路要走，商业化也尚为时过早。

当谷歌击败 Sora

OpenAI 的 Sora 开放使用之后，一系列生成视频的表现并不符合外界的期待，而谷歌在近期发布的视频生成器 Veo2，通过一系列测试表明，其有超过 Sora 的更惊艳表现。

尤其是一个最著名的切西红柿的镜头，谷歌的 Veo2 刀子干净利落地切开西红柿，避开了手指，而 Sora 视频中的刀子却切开了手，这让 Sora 再次成为群嘲的对象，也让行业人士认为，Sora 更偏向于运动，而 Veo2 则更注重物理的准确性。

有 AI 行业人士认为，谷歌之所以能超越 Sora，不光是发现了 Sora 物理准确性的弱点，更在于其利用 YouTube 来训练其人工智能模型。

字节跳动的技术团队并非没有发现 Sora 在物理准确性上的弱点。11 月，豆包大模型团队曾发布过一篇论文，名为《从世界模型的角度来看，视频生成与之相距多远：基于物理定律的视角》（《How Far is Video Generation from World Model: A Physical Law Perspective》），探究了视频生成模型能否观察事物间的相互关系，并从中提炼出一套稳定的物理规律。

「视觉模糊性会导致在细粒度物理建模方面出现显著的误差，单纯依赖视频表示不足以进行精确的物理建模。」该论文认为，视频生成模型要成为准确的世界模型还面临挑战。

而研究这个方向的两位作者都非常年轻，一位是 95 后，一位是 00 后。如同即梦和可灵，都需要年轻的艺术学院的学生参与打造想象力的世界一样，为这个 AI 想象力世界奠定技术基础的，同样来自年轻的头脑。两位作者耗费 8 个月时间，就是为了找到通往世界模型的一扇大门。

找到瓶颈需要 8 个月，而打破瓶颈可能需要耗费更长的时间。

抖音何时真正即梦？在那份调研纪要中，字节跳动明年的 AI 发展有三条主要路径，一是豆包大家族生态；二是抖音等产品的全面 AI 化；三是包括即梦在内的多模态模型和世界大模型，而且多模态这一条是重点，「无限支持和投入，因为这是转型的重要节点，可以接受较大亏损」。

当谷歌击败 Sora，预示着 OpenAI 创造的模型神话将被打破；而快手可灵，只是抖音即梦的下一个目标罢了。

原文标题 : 即梦对阵可灵，重演抖音反超快手？