访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授｜“NLP+媒体”：科技向善，做有挑战的事( 八 )

黄萱菁：比如我们举个例子，就很常见的一个维权，我们大学生在食堂里吃出来了虫子，然后我就要那时候@给这个学校官方。这里头实际上是这样：这还是个建模问题，首先看你的内容是不是有新颖性，值得大v就是去投入，另外也要看大v对你这个话题是不是感兴趣，然后一定要做到你的发言内容和大v的就是那种兴趣范围是能够匹配的，这样的话才会达到这个效果，我们的“@用户推荐”做的就是这样一些事情。
未来媒体访谈：像刚才老师也说了@一些大v，他如果感兴趣的话，可能会转我的帖子，我们对这种转发行为预测模型非常的好奇，怎么去预测我发一条微博它会不会成为一个热门微博？
黄萱菁：好，我稍微详细地说一下怎么样来做这样的一个事情——就怎么样判断我们的微博会不会热门？
做这种行为分析，一方面我要建一个知识库。我们学术界还是非常感谢新浪微博的，因为数据是比较公开的，内容也比较好，因为它是很大量的一个群体。当初我们还是建了一个数据集，否则的话我们没办法去判断是不是会感兴趣。我们先找了200个种子用户，然后200个种子用户会去关注很多其他的用户，然后从他们的关注、他们的粉丝中，我们就建了第二层的数据，大概有8万多个用户，最后我们就构建了一个数据集，有8000多万条微博，有些是原创的，有些是转发的。

文章插图
数据集图源：Retweet Prediction with Deep Attention-based Neural Network, CIKM 2016
然后我们就开始研究各种各样的算法，算法也研究过好几个阶段：首先我们面临的问题是怎么样对用户历史微博就进行建模，这里我们就用上了卷积神经网络。
你刚才也说过，就是一个没有怎么发微博的用户需要去@大v，他一定得写长篇大论，不写长篇大论的话，那个大v根本就是没法去分析判断的，所以我们要么就是有很多历史微博，要么就是长篇大论，都可以去从中去分析用户的兴趣。然后对于微博内容，我们也给它进行建模，之后我们就可以引入基于注意力的模型，注意力模型的话，就像人眼睛去看环境的话是有视觉焦点的，我们阅读理解的时候也是这样，你可能一眼扫过去，文章中间肯定有什么东西特别抓你的眼球，所以我们要试图去建这个模型，看微博中间有没有什么素材能够去抓住用户的眼球，所以这里头我们就用了一个注意力模型，那么这样的话加在原来的基于卷积神经网络匹配模型上的话，然后就可以结合用户（不管是普通用户还是大v）历史的兴趣点，然后看他的相关用户，看用户兴趣点和微博内容有什么样的相似程度，现在你如果让我判断微博是不是火，对吧？当然要看微博的内容，也要看微博是谁写的。

文章插图
热门微博推荐特征工程图源：《热门微博：AI时代精准的个性化推荐》
未来媒体访谈：社交网络文本是一方面，然后另一方面就是我们新闻平台，比如说新闻APP上面也有很多的文本，然后这一块就像您开头也提到了，就怎么去做一个自动的文摘，比如说对我们一个长篇的研究报告出一些简单的摘要，这一部分的技术现在已经发展得非常成熟了吗？它是不是就可以代替编辑这一块的工作？转写技术现在又发展到了什么样的水平？
黄萱菁：咱们不要说“代替”啊（笑）。
未来媒体访谈：增强，辅助。
黄萱菁：“代替”会对现有的从业人员造成有压力。人工智能+的时代应该是“赋能”、帮助各行各业，我们也可以给采编播人员做一个很好的助手。假设咱们这样聊完天之后，后面有一个自动文摘，就可以把我们聊天记录整理好，最后一定是让你来审核的，等于是我们帮助采编部人员做一些很初级的事情，然后让你们做更加智能的事。

访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授｜“NLP+媒体”：科技向善，做有挑战的事( 八 )

推荐阅读

秋季潮男服装搭配技巧是什么秋季潮男服装搭配技巧

怎么才会怀孕想要怀孕应该做些什么准备？

天秤座男生占有欲强吗表现是什么

【健康知识】为什么核酸24小时阴性还是黄码核酸24小时不出结果该怎么办!

大庆小学生什么时候放暑假 2022大庆暑假老师学生可以离庆

怎样使用海钓手把轮进来看看

朴宝剑新浪微博超话社区朴宝剑有新浪微博吗？

木耳水开煮几分钟能熟啊木耳开水水开后煮几分钟能熟

秃头怎么办有哪些治疗办法

孔雀命是什么意思解释孔雀命是什么意思

中山是几线城市2020

关于鼬龙类简述鼬龙类

卡罗拉和花冠的区别有哪些购买时该怎么选择

2022南京前5人气好的浦口区有没有意大利语培训中心推荐机构出炉

关于浙江农业学报简述浙江农业学报

做一位职场妈妈，我没有选择

怎么把手机投屏到海信电视上

荧光鼠荧光板

在之前已经看好了爱楼上的一套125万的二手房，想问下福州二手房公积金贷款额度是多少？怎么计算的？

珠海板樟山新增隧道通车了吗珠海樟子隧道