华人|引入多感官数据学习,华人学者摘得2021 UT-Austin最佳博士论文奖( 二 )


研究的首要目标是从视频和嵌入智能体中复现视听模型: 当多个声源存在时 , 算法如何知道发声对象是什么以及在哪里?这些视听模型如何在传统的视听任务有所提升?为了解决这些问题 , 该研究利用了音频中的语义和空间信号 , 从连续的多模态观测中理解人、地点和事物(图 1.2) 。
这篇论文研究了以下四个重要问题 , 以逐步接近视听场景综合理解的最终目标:

  • 同时观看和聆听包含多个声源的未标记视频 , 以学习音视频源分离模型(第 3 章、第 4 章和第 5 章);
  • 利用音频作为预览机制 , 在未修剪的视频中实现高效的动作识别(第 6 章);
  • 利用未标记视频中的视觉信息推断双耳音频 , 将平面单声道音频「提升」为空间化的声音(第 7 章);
  • 通过回声定位学习空间图像表征 , 监测来自与物理世界的声学互动(第 8 章) 。
作者表示 , 本论文对视听学习的研究 , 体现了无监督或自监督的多感官数据学习对人工智能的未来发展具有积极而重要的意义 。
更多细节请参见论文原文 。

推荐阅读