访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授|“NLP+媒体”:科技向善,做有挑战的事( 八 )


黄萱菁:比如我们举个例子,就很常见的一个维权,我们大学生在食堂里吃出来了虫子,然后我就要那时候@给这个学校官方。这里头实际上是这样:这还是个建模问题,首先看你的内容是不是有新颖性,值得大v就是去投入,另外也要看大v对你这个话题是不是感兴趣,然后一定要做到你的发言内容和大v的就是那种兴趣范围是能够匹配的,这样的话才会达到这个效果,我们的“@用户推荐”做的就是这样一些事情。
未来媒体访谈:像刚才老师也说了@一些大v,他如果感兴趣的话,可能会转我的帖子,我们对这种转发行为预测模型非常的好奇,怎么去预测我发一条微博它会不会成为一个热门微博?
黄萱菁:好,我稍微详细地说一下怎么样来做这样的一个事情——就怎么样判断我们的微博会不会热门?
做这种行为分析,一方面我要建一个知识库。我们学术界还是非常感谢新浪微博的,因为数据是比较公开的,内容也比较好,因为它是很大量的一个群体。当初我们还是建了一个数据集,否则的话我们没办法去判断是不是会感兴趣。我们先找了200个种子用户,然后200个种子用户会去关注很多其他的用户,然后从他们的关注、他们的粉丝中,我们就建了第二层的数据,大概有8万多个用户,最后我们就构建了一个数据集,有8000多万条微博,有些是原创的,有些是转发的。
访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授|“NLP+媒体”:科技向善,做有挑战的事
文章插图
数据集 图源:Retweet Prediction with Deep Attention-based Neural Network, CIKM 2016
然后我们就开始研究各种各样的算法,算法也研究过好几个阶段:首先我们面临的问题是怎么样对用户历史微博就进行建模,这里我们就用上了卷积神经网络。
你刚才也说过,就是一个没有怎么发微博的用户需要去@大v,他一定得写长篇大论,不写长篇大论的话,那个大v根本就是没法去分析判断的,所以我们要么就是有很多历史微博,要么就是长篇大论,都可以去从中去分析用户的兴趣。然后对于微博内容,我们也给它进行建模,之后我们就可以引入基于注意力的模型,注意力模型的话,就像人眼睛去看环境的话是有视觉焦点的,我们阅读理解的时候也是这样,你可能一眼扫过去,文章中间肯定有什么东西特别抓你的眼球,所以我们要试图去建这个模型,看微博中间有没有什么素材能够去抓住用户的眼球,所以这里头我们就用了一个注意力模型,那么这样的话加在原来的基于卷积神经网络匹配模型上的话,然后就可以结合用户(不管是普通用户还是大v)历史的兴趣点,然后看他的相关用户,看用户兴趣点和微博内容有什么样的相似程度,现在你如果让我判断微博是不是火,对吧?当然要看微博的内容,也要看微博是谁写的。
访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授|“NLP+媒体”:科技向善,做有挑战的事
文章插图
热门微博推荐特征工程 图源:《热门微博:AI时代精准的个性化推荐》
未来媒体访谈:社交网络文本是一方面,然后另一方面就是我们新闻平台,比如说新闻APP上面也有很多的文本,然后这一块就像您开头也提到了,就怎么去做一个自动的文摘,比如说对我们一个长篇的研究报告出一些简单的摘要,这一部分的技术现在已经发展得非常成熟了吗?它是不是就可以代替编辑这一块的工作?转写技术现在又发展到了什么样的水平?
黄萱菁:咱们不要说“代替”啊(笑)。
未来媒体访谈:增强,辅助。
黄萱菁:“代替”会对现有的从业人员造成有压力。人工智能+的时代应该是“赋能”、帮助各行各业,我们也可以给采编播人员做一个很好的助手。假设咱们这样聊完天之后,后面有一个自动文摘,就可以把我们聊天记录整理好,最后一定是让你来审核的,等于是我们帮助采编部人员做一些很初级的事情,然后让你们做更加智能的事。

推荐阅读