华人|引入多感官数据学习，华人学者摘得2021 UT-Austin最佳博士论文奖 Ruohan|论文|音频|UT-Austin|研究

机器之心报道
编辑：蛋酱

UT-Austin 本年度的最佳博士论文奖获得者 Ruohan Gao ，目前是斯坦福大学的博士后研究员。

华人|引入多感官数据学习，华人学者摘得2021 UT-Austin最佳博士论文奖

文章图片

今年 5 月，德克萨斯大学奥斯汀分校（UT-Austin）研究生院公布了 2021 年度各个专业和学生奖项的获奖者。这些奖项旨在表彰研究生院成员在学术、教学和专业服务方面的卓越表现。
在本年度的评选中，华人学者 Ruohan Gao 的博士学位论文《Look and Listen: From Semantic to Spatial Audio-Visual Perception》获得了 Michael H. Granof 奖。

文章图片

杰出博士论文奖设立于 1979 年，旨在表彰出色的研究以及鼓励最高的研究、写作、学术水平。每年颁发三个奖项，其中一篇会被选中获得该校的最佳论文奖「Michael H. Granof 奖」。杰出论文奖获得者将获得 5000 美元奖金， Granof 奖获得者获得 6000 美元奖金。
Ruohan Gao

文章图片

Ruohan Gao2015 年于香港中文大学（CUHK）信息工程系获得一等荣誉学位，导师为刘永昌（Wing Cheong Lau）教授。
博士期间， Ruohan Gao 师从 Kristen Grauman 教授。他的研究兴趣是计算机视觉、机器学习、数据挖掘等，特别是视频中的多模态学习和多模态下的 embodied learning 。 2021 年初， Ruohan Gao 从德克萨斯大学奥斯汀分校获得博士学位。
目前， Ruohan Gao 是斯坦福大学视觉与学习实验室（SVL）的博士后研究员。
此外， Ruohan Gao 还获得过谷歌博士生奖研金（Google Ph.D Fellowship）、Adobe 研究奖研金（Adobe Research Fellowship）等荣誉。
这篇论文研究了什么？

文章图片

【华人|引入多感官数据学习，华人学者摘得2021 UT-Austin最佳博士论文奖】论文链接：https://ai.stanford.edu/~rhgao/Ruohan_Gao_dissertation.pdf
理解场景和事件本质上是一种多模态经验。人们通过观察、倾听 (以及触摸、嗅和品尝) 来感知世界，特别是物体发出的声音，无论是主动产生的还是偶然发出的，都提供了关于自身物理属性和空间位置的有价值的信号，正如钹在舞台上撞击，鸟在树上鸣叫，卡车沿着街区疾驰，银器在抽屉里叮当作响……
尽管通过「看」，也就是根据物体、行为或人的外表检测的识别取得了重大进展，但它往往不能够「听」。在这篇论文中，作者证明了与视觉场景和事件同步的音频可以作为丰富的训练信号来源，用于学习 (视听) 视觉模型。此外，作者开发了计算模型，利用音频中的语义和空间信号，从连续的多模态观测中理解人、地点和事物。

文章图片

当前大多数计算机视觉系统的现状是从大量「无声」数据集的标记图像中学习，而该论文研究目标是既要会倾听，又要了解视觉世界。
作者表示，受到人类利用所有感官对世界进行感知的启发，自己的长期研究目标是建立一个系统，通过结合所有的多感官输入，能够像人类一样感知世界。在论文的最后一章，作者概述了在此博士论文之外希望追求的未来研究方向。