清华大学连发2篇Nature子刊

FUTURE远见| 2023-02-27

Future|远见

Future|远见future选编

2月23日,清华大学集成电路学院任天令团队和车辆学院杨殿阁团队各发1篇Nature machine intelligence。

清华大学集成电路学院任天令团队研发出混合模态语音识别和交互智能人工喉

近日,清华大学集成电路学院任天令教授及合作团队在智能语音交互方面取得重要进展,其研发的可穿戴人工喉可以感知喉部发声相关的多模态机械信号以用于语音识别,并依靠热声效应播放对应的声音,研究结果为语音识别与交互系统提供了一条新的技术途径。该成果以「使用可穿戴人工喉的混合模态语音识别与交互」(Mixed-modality speech recognition and interaction using a wearable artificial throat)为题,于2月23日在线发表在《自然》(Nature)人工智能子刊《自然·机器智能》(Nature Machine Intelligence)上。

论文通讯作者为清华大学集成电路学院任天令教授、田禾副教授、杨轶副教授和上海交通大学医学院罗清泉教授,清华大学集成电路学院2019级博士生杨其晟、上海交通大学医学院2019级博士生金伟秋为共同第一作者。

图1. 基于智能可穿戴人工喉的语音交互范式

语音是人类交流的重要方式,但说话人的健康状态(例如神经疾病、癌症、外伤等原因导致的声音障碍)和周围环境(噪音干扰、传播介质)往往会影响声音的传输和识别。研究人员一直在改进语音识别和交互技术以应对微弱的声源或嘈杂的环境。多通道声学传感器可以显著提高声音识别的精度,但会导致更大的设备体积。而可穿戴设备能够获取高质量的原始语音或其他生理信号。然而,目前尚无充分的证据表明喉部肌肉的运动模式和反映在体表的发声器官振动中隐含着可识别的语音特征,且尚无实验证明其作为语音识别技术的完备性。

图2. 人工喉器件设计和性能表征
图3. 人工喉器件与麦克风采集的语音信息标注和共振峰特征分析

为解决这一问题,任天令团队成员开发了一款基于石墨烯的智能可穿戴人工喉(AT),同商业麦克风和压电薄膜相比,人工喉对低频的肌肉运动、中频食管振动和高频声波信息有很高的灵敏度(图1、图2),同时也具有抗噪声的语音感知能力(图2)。对声学信号和机械运动的混合模态的感知使人工喉能够获得更低的语音基频信号(图3)。此外,该器件还可以通过热声效应实现声音的播放功能。人工喉的制作过程简单、性能稳定、易于集成,为语音识别和交互提供了一种新的硬件平台。

图4. 人工喉语音识别性能

团队还利用人工智能模型对人工喉感知的信号进行语音识别和合成,实现了对基本语音元素(音素、声调和词语)的高精度识别,以及对喉癌患者模糊语音的识别与再现,为声音障碍者的沟通和交互提供了一种创新的解决方案。实验结果表明,人工喉采集的混合模态语音信号可以识别基本语音元素(音素、音调和单词),平均准确率为99.05%。同时人工喉的抗噪声性能明显优于麦克风,在60dB以上环境噪声下仍能保持识别能力。任天令研究团队进一步演示了它的语音交互式应用。通过集成AI模型,人工喉能够识别一名喉切除术患者模糊说出的日常词汇,准确率超过90%。识别出的内容被合成为语音在人工喉上播放,可以初步恢复患者的语音交流能力。

图5. 使用智能可穿戴人工喉进行无声语音交互

该人工喉还有很大的优化和拓展空间,例如提高声音的质量和音量,增加语音的多样性和表情,以及结合其他生理信号和环境信息实现更自然和智能的语音交互。研究团队希望通过进一步的研究和合作,让人工喉造福更多的声音障碍者和语音交互的用户。

该项目得到了国家自然科学基金委、科技部、教育部霍英东基金、北京市自然基金委、清华大学国强研究院、清华大学佛山先进制造研究院、清华大学-丰田联合研究院、清华-华发建筑光电子技术联合研究院等的支持。

清华大学车辆学院杨殿阁团队提出自动驾驶「可信持续进化」技术

近日,清华大学车辆与运载学院杨殿阁教授团队提出了自动驾驶「可信持续进化」技术,该技术有望解决公众对于无人驾驶大规模商用安全性的担忧,实现在任何场景下,无人驾驶汽车即使没有预先设定的应对方案,也能自主学习应对该场景并保证行驶安全。研究结果在2月23日以「利用动态置信度强化学习实现自动驾驶的持续提升」(Continuous improvement of self-driving cars using dynamic confidence-aware reinforcement learning)为题发表在《自然·机器智能》(Nature Machine Intelligence)上。

论文第一作者为清华大学车辆学院博士后曹重通讯作者为车辆学院杨殿阁教授,清华大学江昆老师、美国密歇根大学彭晖教授共同参与了研究工作。

安全性是自动驾驶技术最核心的命题,尽管目前自动驾驶汽车已经具备了在一些特定典型场景中示范无人驾驶运行的能力,但不断出现的自动驾驶汽车事故仍旧使公众对于无人驾驶大规模商用的可能性产生质疑。开展更多的自动驾驶测试和示范终究无法完全消除这一疑虑,真正突破这一瓶颈需要自动驾驶汽车在设计时就能保证,面对突发情况时,即使没有预先设定的应对方案,仍然是可通行的并且是安全的。实现这一目标需要准确发现所有可能出现的安全隐患并及时处理,然而,当前自动驾驶依赖数据驱动的AI技术,其黑盒特点与偶发失效特性导致实现这一目标变得十分困难。

为解决这一问题,清华大学车辆学院研究团队提出了自动驾驶「可信持续进化」技术,该技术会在自动驾驶汽车行驶初期将所有场景无差别地看成未知场景,均采取主动避让的基础驾驶策略以保证安全性;在此基础上,AI模型将从大数据中主动寻找熟悉的行驶场景,并自主地将在这些场景中的驾驶性能从基础策略调整到更优水平,因而能从系统设计的角度,解决长尾场景难以穷尽的问题,保证在任意场景下不依赖预先设定的「可信持续进化」。实现这样一个技术最核心的难点在于进化的过程要保证性能是单调提升的,这样才能使得整个进化过程仍具备最基础的安全性,但经典的AI训练过程中性能通常存在震荡现象,可能会引发新的安全风险,而研究团队设计的通过动态评估置信度进行AI模型训练的方案,能够使性能随数据的增加而单调持续提升,因而能够很好地满足这一要求。

研究团队在仿真和实车测试过程中对该技术进行了验证,实验结果表明该技术能够保证自动驾驶汽车在系统没有预先设定的突发场景(如车辆逆行、工程车辆压线超车等)中的驾驶安全性,同时随着车辆的运行和数据的持续采集,驾驶性能能够自动得到进一步提升。这一技术突破有望推动无人驾驶从典型场景示范走向开放道路实际应用,让无人驾驶汽车具备实现普及和大规模商用的可能性。

该技术在2022北京科技冬奥自动驾驶示范项目中成功得到了应用。研究团队正在与国内外领军汽车企业和知名的出行厂商合作开展商业化合作,进一步开展大规模无人驾驶开放道路应用示范,以检验该技术在更多行驶场景中的应对能力与自主提升能力,并持续收集无人驾驶测试数据,以满足开放道路无人驾驶可信赖性要求。

研究得到国家自然科学基金与清华-丰田联合研究基金专项项目的支持。

论文链接:

[1]https://www.nature.com/articles/s42256-023-00616-6

[2]https://www.nature.com/articles/s42256-023-00610-y

--清华大学