自动驾驶新方法登 Nature 封面:让黑夜如白昼般清晰,浙大博士一作
利用 AI 打辅助,让机器夜视能力和白天一样清晰 ——
今天,这样一种颠覆已有热成像技术的新方法登上了 Nature 封面。
它来自美国普渡大学和密歇根州立大学,一作为浙大毕业的博士。
通过克服传统解决方案中的“重影”问题,这种方法在基准测试中一显巨大优势,不仅能像白天一样看清环境的纹理和深度,还能感知到 RGB、热视觉以外的各种物理信息,可谓相当利好机器感知尤其是自动驾驶行业。
而作者则认为,该成果对第四次工业革命还能直接起到加速作用。
何以见得?我们翻开论文来看。
像白天一样清楚的夜视能力
目前比较前沿的机器感知方法是利用无处不在的热信号来重现环境信息。
但是它有一个非常明显的缺点,就是会产生“重影效应(ghosting effect)”。
具体而言,该效应是指由于物体和环境在不断发射热辐射,导致三个物理属性,即温度(T,物理状态)、发射率(e,材料指纹)和纹理(X,表面几何形状)混合在光子流中出现的一种现象(仅限于夜视情况)。
这种现象主要造成的是环境 / 物体的纹理缺失,如下图所示:
只有当灯泡关闭时我们才能看到灯泡上的几何纹理,一旦发光就完全消失,而黑体辐射不可能被“关闭”,所以也就意味着我们得到的热图像总是缺乏纹理,不能看到一个完全真实的黑暗世界。
在此,作者提出了一种名为 HADAR(heat-assisted detection and ranging)的方法,它以热光子流为输入,记录高光谱成像热立方体,通过 TeX 分解来解决重影效应这一挑战。
作者表示,TeX 分解利用机器学习生动地从杂乱的热信号中恢复纹理(如下图彩色部分),并使人工智能算法能够达到信息论的极限,而到目前为止,传统的 RGB 或热视觉办法很难做到。
它的具体实现如下图所示:
作者介绍,其架构的物理学灵感来自三个方面。
首先,热立方体的 TeX 分解依赖于空间模式和光谱热特征,这启发了他们在 UNet 模型中采用光谱和金字塔(空间)注意力层。
其次,由于 TeX 的简并性,必须指定以下数学结构来确保逆映射的唯一性(α、β 代表物体的指数,v 是波数),因此必须学习热照明系数 V 而不是纹理 X。也就是说,TeX-Net 不能端到端地训练。
最后,材料库 M 及其维度是整个网络的关键。
除此之外,作者还提出了一种非机器学习方法,即 TeX-SGD 来生成 TeX-vison 作为补充。
在测试中,我们能看到 HADAR 方法带来了超高精度。
如下图所示,第一行显示基于原始热图像的测距方法由于重影导致精度很差;第二行则显示与热测距相比,HADAR 中恢复的纹理和增强的精度约达 100 倍;
而在下面的场景中(黑色汽车、人和爱因斯坦纸板),我们能看到:
视觉驱动的物体检测在光学成像中(a)错误地识别出了两个人和一辆汽车,而激光雷达点云(c)不但识别到两个人还把汽车给丢了,只有 HADAR 方法能够带来全面的理解,准确框出一人一车。
最后这一组图则充分证明,HADAR 在夜间的总体视觉能力优于目前最先进的热测距方法(GCNDepth),其 RGB 立体视觉更是和白天测试到的基本处于一个水平,即 HADAR 在黑暗中看到环境纹理和深度,就像白天一样。
作者介绍
一作 Fanglin Bao,普渡大学研究员。他于 2011 年 6 月在浙江大学获得物理学学士学位,2016 年 6 月获得光学博士学位。
Fanglin Bao 之前的研究集中于非均匀系统中的卡西米尔效应(量子力学),目前则延伸到张量网络、神经网络及其在量子物理学中的应用。
通讯作者为普渡大学电气与计算机工程教授 Zubin Jacob,以及密歇根州立大学计算机科学与工程系助理教授 Vishnu Boddeti(后者正在招收“数学背景很强”的学生)。
论文地址:
https://www.nature.com/articles/s41586-023-06174-6