华人|引入多感官数据学习,华人学者摘得2021 UT-Austin最佳博士论文奖( 二 )
研究的首要目标是从视频和嵌入智能体中复现视听模型: 当多个声源存在时 , 算法如何知道发声对象是什么以及在哪里?这些视听模型如何在传统的视听任务有所提升?为了解决这些问题 , 该研究利用了音频中的语义和空间信号 , 从连续的多模态观测中理解人、地点和事物(图 1.2) 。
这篇论文研究了以下四个重要问题 , 以逐步接近视听场景综合理解的最终目标:
- 同时观看和聆听包含多个声源的未标记视频 , 以学习音视频源分离模型(第 3 章、第 4 章和第 5 章);
- 利用音频作为预览机制 , 在未修剪的视频中实现高效的动作识别(第 6 章);
- 利用未标记视频中的视觉信息推断双耳音频 , 将平面单声道音频「提升」为空间化的声音(第 7 章);
- 通过回声定位学习空间图像表征 , 监测来自与物理世界的声学互动(第 8 章) 。
更多细节请参见论文原文 。
推荐阅读
- 距离感|声音对学习有多重要?能提升专注力和模仿准确度!
- 材料科学|全国只有26所!这些以省命名的大学,到底有多强?
- 爱心|我,70后贫困山村校长,借钱供儿子上学,却甘愿为学生自掏20多万
- 期末考试|语文偷分技巧,期末考试前,让孩子知道这6条!多考10分!
- 高中物理|评上副高之后,优秀名额都让给别人了,教师:我也10多年不优秀了
- 教师|“教师编”也遭嫌弃?70多名公立老师集体辞职,真实原因很心酸
- 贾浅浅|贾浅浅,高考250多分,照样读985?而学生要考600多分
- 大学|教育部下达“3个新通知”,高中生难度或将提高,愁坏了许多父母
- 留学生|赴美留学有多“香”?票价“十万”学生仍排长队,网友表示费解
- 成都|西安研究生擅自离校,避开多重关卡开车到成都,书都读到哪里去了