访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授|“NLP+媒体”:科技向善,做有挑战的事( 五 )


黄萱菁:知识表达、知识推理、知识存储其实是我们一直非常感兴趣的方向。
因为人工智能一定是需要知识的,对吧?过去几十年来,包括像70年代我们做那种基于知识库的方法,也是试图说是怎么样把专家知识给它编码起来,用它进行推理。为什么说当时的工作是玩具呢?现在也没有解决得很好。主要(问题)就在于怎么样去表达这个知识。现在市面上各种企业做知识图谱的也非常多,其实要么就是这样,就是靠人去收集各种各样的知识,然后再试图在后端去做一些编码,比如我们可以预训练的模型去重组,要么的话就是给我们无结构的文本我去提取知识。
我个人比较感兴趣的,比如像BERT这种预训练模型,还有更新更好的很多模型出来之后,就会有很多做模型分析的人去看这个预训练模型是不是里头已经包含了很多的人类知识。那么当然我们可以做很多探针,就跟医生一样的,我想看你身体内部发生了什么样的一些变化,我可能只要只能通过一个传感器去看,预训练知识像黑箱,我们也希望用一些温度计去看,比如x光去照射,结果就发现在某种程度上,现有的预训练模型,比如像各种各样的百科知识编码之后,某种程度上它实际上具有编码常识知识的很多能力,然后这种这块工作的话我们自己也比较感兴趣。
比如我们实验室在做的一些工作,就在想,知识库对吧?像百科知识是一方面,另外我们还会有很多知识来源,比如我词典也是知识,另外像一些人工的知识库。
他去处理维基百科,实际上是把知识当成纯文本,当成那种很低层的信号去处理,但是我是不是有可能直接从给我已经生成了知识,我才去做,所以我们会尝试着怎么样把现有的这种专家知识就注入到预训练模型中间,去提升预训练模型的性能。这块工作我觉得还是比较前沿,也应该是很有生命力,同时也要有我们发明更多的这种探针手段,就去考察我们现有的预训练模型是不是真的能够编码人类知识。
“可以让子弹飞一会儿。”
未来媒体访谈:其实老师刚才也说了也提到了很多类似于说跟传播学或者跟其他领域,比如认知科学交叉的这一块的知识领域,我们也特别想知道可能如果是跟传媒相关的交叉研究,您在疫情期间,包括跟复旦的其他教授或者其他团队,包括一些新闻传播领域的专家,一起去做了这样的一个舆情研究。我们对舆情研究的内容非常的好奇,您能跟我们大概说一说当时的情况吗?就为什么要做舆情研究?它的研究目的是什么?
黄萱菁:当时情况是这样,复旦大学承接了上海市的一个舆情方处理方面的重大的基础研究项目,这个项目实际上是我们的焦扬书记亲自挂帅,所以调用了整个复旦的校内的资源,包括舆情方面的专家,比如来自于新闻学院的专家,还有国际关系学院、国际政治学的专家,有他们的专家知识,另外我们搞技术的包括计算机学院、大数据学院、片上芯片研究所(复旦大学类脑芯片与片上智能系统研究院)一起来参与,我们主要是做一个舆情分析的系统。
那么疫情来了之后,我们就在想,既然我们有现成的这样一个项目、这样的研究组,我们是不是也可以对新冠肺炎舆情大数据做一些分析的报告。按照我们传播学的专家,比如周葆华教授他就理了一些工作的一些需求,首先他给的我们要做三个问题,首先疫情舆情的发展和疫情的发展之间是关系,因为我们人直觉上可能就是先有疫情,再有舆情,那么舆情是怎么样跟着一起走,这是一点。
另外的话也想知道就来自不同群体的互联网用户在疫情传播期间的关注点的话有什么样的一些差异,我们也做了比如一线城市二线城市的一些分析。

推荐阅读