智源发布原生多模态世界模型Emu3，宣称实现图像、文本、视频大一统

人阅读 2024-10-22 15:47:43业界资讯

智源研究院最新发布原生多模态世界模型 Emu3，该模型在文本、图像、视频理解与生成方面取得了突破性进展。据悉，Emu3基于下一个 token 预测，无需扩散模型或组合方法，即可实现在三种模态数据的理解和生成。

在图像生成任务中，Emu3优于SD-1.5与SDXL模型，在视觉语言理解任务中优于LlaVA-1.6，在视频生成任务中优于OpenSora 1.2。此外，Emu3还提供了强大的视觉tokenizer功能，能够将视频和图像转换为离散token，并且这些离散token可以与文本tokenizer输出的离散token一起送入模型进行处理。

研究表明，通过将复杂的多模态设计收敛到token本身，在大规模训练和推理中释放出巨大的潜力是可行的。因此，在大规模训练和推理时采用Emu3将会更加高效。值得一提的是，Emu3已经开源了关键技术和模型，并且其项目页面也已上线。

总之，智源研究院最新发布的Emu3原生多模态世界模型是一款值得关注的产品。它在三种模态数据的理解和生成方面取得了突破性进展，为研究人员提供了一个统一的研究范式。同时，Emu3已经开源了关键技术和模型，并且其项目页面也已上线。如果您对该产品感兴趣，不妨一试！