> 资讯 > 业界新闻

多模态模型赋能智能终端,AI传感成关键硬件

人阅读 2025-03-06 17:59:01

在与OpenAI分道扬镳之后,Figure没有停下机器人与AI结合的脚步,发布了具身模型Helix。Helix是一款对整个人形机器人上半身进行高频率、连续控制的视觉-语言-动作(VLA)多模态模型。VLA模型不仅仅是机器人智能化关键技术,应该说智能硬件发展到高阶智能,多模态能力都是其核心功能。在上篇文章中也提到过,在触觉相关的感知与处理能力成熟后,VLA发展成全模态的视觉-触觉-语言-动作VTLA模型也是必要的。

和机器人有着很多共同技术栈的智能汽车行业,有着多模态能力的VLA模型亦在加速崛起。不少智驾从业人士将VLA模型视为当下继特斯拉端到端方案之后的端到端2.0版本,被誉为“端到端与多模态模型融合得更彻底的产物”。VLA模型从多种传感器数据中提取丰富的内外部信息,再借助语言端侧模型理解指令最后转化为驾驶操作指令,推动智能驾驶向L3L4等级发展。中国乘用车产业联盟秘书长近期也表示在量产车市场,未来VLA模型有望成为高阶智驾的标配。

在VLA模型的带动下,具备多模态交互推理能力的多模态模型成为焦点。北大团队在公布基于DeepSeek-R1更新的多模态版DeepSeek-R——Align-DS-V时也表示“这种全模态的信息流对于大模型范式转向通用人工智能非常重要”。

随着DeepSeek正式开启“开源周”,每天开源一个项目再度引发AI模型的开源潮。与此前推理模型的开源不同,这几天AI模型在多模态领域“卷”了起来。持续火爆的DeepSeek本身就有着多模态框架,越来越多基于DeepSeek的改良版多模态模型涌现。

与此同时,和智能硬件结合的多模态模型同样开始催生传感器端侧智能变革。没有先进的传感信息收集,全模态的交互处理能力就无用武之地。多模态模型加持的终端设备,正在推动传感器向AI传感器变革。

然而多模态模型的应用并非没有挑战,数据融合的复杂性要求极高的计算资源,而且融合后的终端侧模型参数变得更大,既要求高效实时又要推理能力,这对芯片硬件有相当高的要求。同时海量感知信息收集需要配套的先进多模态感知底座,没有传感基础硬件的支持,一切都只是空中楼阁。

多模态模型与硬件算力结合落地,点燃智能硬件落地前景

机器人赛道上从Figure的Helix来看,里面有两个关键的模块,第一个模块是一个拥有70亿参数的开源端侧互联网预训练视觉语言模型,用于处理语音和视觉信息,即VLA中的VL。第二个模块则是一个拥有8000万参数的AI模型,负责将语言模型发出的指令转化为精确的机器人动作,即VLA中的A。这一架构让Helix能实时处理复杂场景,并提供高度精准的动作反馈。

在VL部分的感知环节上这里主要集中在视觉和语言信息的融合上,将摄像头、用户语言等各种感知数据收集,进而转化为统一的token embedding用于后续处理。根据Figure介绍,Helix完全能够在嵌入式低功耗GPU上运行。Helix VLA模型与英伟达GPU的结合给火热的机器人赛道再次升温。

智驾领域走视觉路线的Nullmax携手黑芝麻智能也发布了基于华山系列A2000的多模态模型智驾方案,在不依赖激光雷达系统中,通过摄像头、语音等多模态信息,帮助汽车获得感官能力并实现多种高阶智能功能。

在智驾领域走纯视觉感知路线尚没有定数,走多传感器融合的方案也不少,毫米波雷达、激光雷达自然也是多模态模型中重要的感知信息。华为智驾3.0的激光雷达 毫米波雷达 视觉融合的多模态模型方案搭配华为的硬件算力,亦是自动驾驶产业融合派的技术代表。

在AI模型上,打造高质量LLM和多模态模型正在为AI的商用应用和终端侧推理落地做好准备。对于带有执行功能的机器人等终端侧硬件来说,从多模态模型过渡到VLA模型则是高阶智能的未来。

在智能终端硬件侧,多模态模型和硬件算力的适配,则是能否真正应用起多模态能力的重点,也是推进终端落地的关键。数据融合后高复杂性需要恰当的计算资源让整个智能系统运转起来。在多模态模型的技术周期,DeepSeek带动的AI模型训练成本下降和开源合作上的结合能让更多的开发者进行高质量多模态模型开发;与硬件算力的适配将进一步推动多模态能力在终端侧的部署和推广,提升终端侧智能体验。

多模态模型与硬件算力的结合正在积极涌现,面壁智能研发基于MiniCPM系列端侧多模态模型已经与安谋科技、爱芯元智、紫光展锐、高通、瑞芯微、英特尔等算力硬件厂商展开深度合作;深思考人工智能不久前发布的鸿蒙系统“TinyDongni”及“DeepSeek”超小端侧多模态大模型,已与国产头部模组厂商广和通、深开鸿达成合作推出适配国产算力的硬件解决方案。

模型层和算力层的打通,多模态模型与硬件算力适配结合落地,是终端智能设备进入千行百业的关键动作,点燃了智能硬件落地前景。

多模态模型催生传感器端侧智能变革,AI传感打造感知底座

在多模态模型如火如荼地发展下,用于智能硬件多模态模型中的一切数据源头都建立在传感器带来的输入上,用于感知各类信息的传感器也迎来智能变革推动力。在智能硬件上不可或缺的AI传感迎来多模态模型技术周期里的新发展机遇。

在终端侧,已经可以看到以汽车和机器人为代表的多模态感知融合+多模态模型决策能力的体现,Figure的Helix更是展现了多模态感知融合+多模态模型决策+精确动作指令执行的潜力。目前消费领域AI眼镜依靠其多模态感知的硬件特性与多模态模型结合得很快,后续消费电子领域,也会出现更多的案例。

传感方面视觉传感是众多智能设备的刚需,自然是本技术周期内最直接的受益者。在很多消费级智能硬件中核心CMOS 图像传感器是视觉感知的基础器件。索尼的AI图像传感IMX系列是其中具有代表性的传感器件,可单独进行图像处理、高速边端AI处理,能将端侧模型写入嵌入式内存中;国内高性能CMOS图像传感器芯片厂商思特威在视觉应用场景上正在推进AI SoC Sensor系统级集成的端侧视觉组合;韦尔股份同样表示看好AI视觉市场具备的高速增长潜力,在AI+图像传感器上已深度布局。

在直接感应技术上雷达的应用提供了高精度的定位,特别是4D雷达在智能家居、智能驾驶领域起到了关键作用,还有不断下探成本的激光雷达传感。在传感器智能变革中,雷达芯片与AI的结合也成为关键创新点。在该领域领先的TI、英飞凌均开始在传感芯片搭载AI处理单元来运行传感器端侧的模型向AI传感进化。TI在最新的单芯片60GHz毫米波雷达上内置了片上加速器和DSP来支持边端侧模型的运行。

传感器与AI模型结合的端侧传感方案在终端设备上出现的越来越多,传感器件也从单一数据采集器向智能决策节点转变,这对实现更低功耗的感知决策分析,减少数据的传输延迟有着积极的推动作用。同时AI传感器件通过端侧模型预分析数据,能为多模态模型提供结构化信息便于进行数据融合处理解析出完备的多模态参数,大幅提升硬件设备的智能化程度,这也是VLA模型所需要的。

传感器件正在发生的智能变革,可以将其理解成智能化驱动的感知底层逻辑的重塑。传统的感知范式传感器只需要完成数据收集,将数据交给云端来做处理与决策,传感器只需要关心精度是否足够。而这种变革里新的范式是,传感器收集到数据后在端侧进行处理与预分析,硬件层面上算力与本地感知数据处理完成闭环,既提高了也提升了设备安全,就像是给传感器装上了“大脑”。

更进一步的是多模态感知加多模态模型,赋予了端侧设备自主理解场景的能力,多模态的信息都能被捕捉并被设备理解,推动感知系统从“采集-传输-处理”的线性链条向“感知-认知-行动”的闭环进化。

当前传感器厂商大多通过传感硬件来做商业盈利,在传感器智能变革的进程里,未来产生AI传感器组合预测模型打包而成“传感器即服务”的商业模式也不为奇。AI时代,硬件是身体,模型是灵魂,产业价值链条也在不断演进。

写在最后

在多模态模型基础上更进一步的VLA模型给智能硬件带来了落地支持,也推动了软硬件厂商在多模态能力上进一步挖掘。多模态模型的不断演进为端侧智能提供了更强大的信息处理框架,而端侧传感更成熟的感知能力反哺了多模态模型落地场景的扩展,两者的协同打造的AI传感底座推动终端设备向更高智能化攀登。


LOT物联网

iot产品 iot技术 iot应用 iot工程

Powered By LOT物联网  闽ICP备2024036174号-1

联系邮箱:support1012@126.com