访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授|“NLP+媒体”:科技向善,做有挑战的事( 二 )


黄萱菁:其实的话,可能在学校里面会比较迟钝,当它冷的时候也没有觉得它多么的冷,因为对我们来说,可能看到问题、看到挑战就会很快乐,因为我们有事情可以做,过去比较冷的时候太难了,很多事情做不好,那么我每年都会有很多任务可以在做,也就不会再关注到社会上觉得这个东西不够热。那热的时候就会有明显的发现,比如像这几年明显到我们的研究生毕业之后都是做相关的研究和开发,说明从市场上是比过去要热一些。
未来媒体访谈:另一方面除了人工智能的热度的转变,我们也很想了解整个研究范式是有一个怎样的转变?是不是从您可能开始接触这个领域开始,它是以传统的机器学习为主,目前是比较主流的深度学习,但其实在最早期它是以语言学法则为基础的研究。
黄萱菁:你非常清楚,因为我其实是赶上了尾巴,就是介乎于基于语言学的方法和机器学习方法中间的,我差不多上世纪90年代开始进入学术圈的,也就在这个时候,自然语言处理有一个大的研究方式的变化,它一方面就是说我们从语言学驱动,这种基于规则的方法转向基于机器学习这种基于数据驱动的方法,所以我开始跟我们同学说,其实自然语言处理对语文水平的要求,实际上是没有对数学水平的要求更高的,这是一方面。
另外一方面的话,以前做自然语言处理,我们就会做一个那种叫玩具系统,做一个小的演示,看上去好像能够完成很多很宏大的目标。比如可以最早的比如像ELIZA就可以治愈精神疾病的患者,但这些都是用来演示的,其实不是很能解决这个真的问题,如果你数据有噪音,或者是真实场景,就不work。
访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授|“NLP+媒体”:科技向善,做有挑战的事
文章插图
图源:https://en.wikipedia.org/wiki/ELIZA
那么上世纪90年代有个趋势,就是我们开始走评测驱动,我不再要求你系统能够特别大,能够做各种各样复杂的事情,只要求就是说你能够解决也许很浅的一些具体的事情,比如你做文摘,我只要有标准答案,有训练数据,然后你做一个算法,能在我的测试数据上达到某个性能那就可以了。
这样的话其实等于说对研究者来说,就有很好的一个测试平台。这种算是基于评测这个趋势,我应该赶上了。这种我们叫基于机器学习的算法,差不多一直到2013年以后开才开始冒这个深度学习,刚才我们也提到像Hinton,深度学习的鼻祖,他是一直几十年如一日做神经网络的方法,然后在那一年(2012年)他们的神经网络的算法应该是基于玻尔兹曼机的算法,那么在ImageNet,计算机视觉方面一个非常权威的评测,他拿了第一,拿第一其实也不是特别值得称道的事情,但是他是以比第二名可能高出百分之二三十的这种性能达到第一,这样子的话大家就会发现新大陆,这东西怎么这么好,然后就有很多研究员去做,先是做计算机视觉,后来的话又在像语音识别方面也比当时的语音识别的软件有非常大的性能提升,然后就开始进入自然语言处理。
总归都是拿性能说话,它在自然处理应用的话,其实开始并没有像视觉和语音识别方面那么成功,它不是一开始就颠覆的,但是做的人多了,每年都有提升,差不多到15、16年之后就开始颠覆现有方法的性能,那么一颠覆之后,大家全都跟过去,现在完全是主流的方法。
访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授|“NLP+媒体”:科技向善,做有挑战的事
文章插图
Geoffrey Hinton(1947-)
访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授|“NLP+媒体”:科技向善,做有挑战的事
“在采编播的各个环节都可以采用自然语言处理的技术。”

推荐阅读