会话视频语义通信,相同质量下将码率降低为10-20%
6月22日,在中国移动2022科技周“遇见未来——6G协同创新技术研讨会”上,清华大学-中国移动联合研究院副院长陶晓明教授发表了《多媒体语义通信关键技术研发进展》的主题演讲,介绍了清华大学与中国移动联合研发的多媒体语义通信的思考以及研发进展。
多媒体语义表征与通信是6G的重要研究方向。图像、视频语义编码与传输,可大幅降低传输数据量,并支持多媒体语义理解任务。
陶晓明教授介绍了会话视频语义通信平台,这是团队前期重要的研究内容与成果。相比于传统H.264编码,语义通信在相同质量下将码率降低为10-20%,即降低到3KB左右。该平台核心技术优势在于不再对像素进行流式传输,而是通过语义编码器提取头部姿态和面部表情的运动参数,将其编码为比特流传输。接收端语义解码器根据头部姿态和面部表情参数驱动参考帧,合成说话人头部。
图1:会话视频语义通信平台
陶晓明教授提出图像结构化表征方法,将高维的图像降维成“主谓宾”三元组的低维表达,表达图像的内在含义,即目标与关系。联合区域特征融合的场景图生成方法,充分利用上下文信息,将主语和宾语的联合区域进行信息交互。融合多层级的特征,并利用语言模型先验,预测关系谓词分类。该方法提升了召回率,能准确、全面的检测出图像的复杂语义信息。
陶晓明教授提出任务驱动的图像语义编码方法,面向下游的语义分析任务,如目标检测、语义分割等,提取与传输任务相关的语义信息。设计基于深度强化学习的码率自适应分配方法,将重要的语义基元分配更多的比特。设计基于生成对抗网络的图像生成式重构方法,将语义基元重建为图像目标。该方法大幅提升低码率图像编码的性能,重建质量优于JPEG, JPEG2000,BPG等工业图像编码方法,并使能下游语义分析任务。
陶晓明教授表示,清华大学-中国移动联合研究院将继续开展语义通信技术研究,并欢迎与业界合作伙伴一起,开展在视频会议、直播等系统中的集成应用工作,尽快为用户带来语义通信高质量新体验。