阿里云发布新一代多模态模型Qwen2.5-Omni

人阅读 2025-03-27 12:47:17业界资讯

3月27日，阿里云宣布推出新一代端到端多模态旗舰模型Qwen2.5-Omni。这款模型专注于全方位多模态感知能力的提升，能够高效处理文本、图像、音频和视频等多样化的输入形式，并以实时流式响应的方式生成文本及自然语音合成输出。

据官方介绍，Qwen2.5-Omni采用了创新的Thinker-Talker双核架构。其中，Thinker模块负责对文本、音频、视频等多种模态输入进行深度处理，生成高层次的语义表征以及相应的文本内容，类似于“大脑”的功能；而Talker模块则承担了类似“发声器官”的角色，通过流式方式接收来自Thinker模块的实时输出语义表征与文本，进而流畅地完成离散语音单元的合成。

在测试中，Qwen2.5-Omni在图像、音频、音视频等多个模态场景下的表现均优于规模相近的单模态模型以及封闭源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro，展现出其在多模态处理领域的卓越性能。