访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授｜“NLP+媒体”：科技向善，做有挑战的事( 六 )

那么另外既然我们是受上海市资助的这样一个项目，所以就会特别关注上海，分析上海市民在疫情中的舆情方面有什么样的变化、什么样的特点，这是当时的一些背景。
未来媒体访谈：当时其实主要还是用微博上面的数据？
黄萱菁：对，是微博上面的数据，我们做这个工作实际上时间也很短，因为大家都知道去年过年的时候，按说那个时候我们都已经放假了，但是因为一有这个需求，很多研究生也就很积极地参与了这项工作。我们大概爬了一个多月的数据，比如找了几个关键词，什么“肺炎”、“冠状病毒”、“新冠肺炎”，那个时候好像还没有“新冠肺炎”的提法，提的更多的是“肺炎”，然后我们就在微博上抓了很多的数据，大概有3000多万条，我们就发现微博的舆情是跟着疫情的。
比如当时有几个事件，像首先大家先知道新冠肺炎进入我们中的视野了，然后武汉又实行进出管控了，那么还有李文亮医生事件，微博数有好几个舆情峰值，然后我们就给他做各种各样的计算机处理，比如做词频统计、话题的频率统计，然后就分析出来两大主题——疫情信息和防疫工作。
未来媒体访谈：当时这个舆情里面肯定非常重要的一方面就是谣言，包括谣言的产生、后面怎么去辟谣，当时是怎么检测到谣言，怎么去做反谣言机制的？
黄萱菁：谣言其实是我们实验室的一个研究方向，谣言检测。我同事魏忠钰他手上带了一个小组来做谣言。从自然语言处理的角度来说，其实谣言的分析，海外我们叫misinformation虚假信息，其实是一个研究内容，国外其实已经有了很多现成的人工标注好的数据，它有很多新闻，然后还有一些假新闻，通过这样的数据可以去训练一个分类去判断这个新闻是不是谣言。
我们当时有了新冠肺炎疫情之后，我们同样面临要建一个数据库的问题，因为我们要用人工智能算法，一定要有训练数据，当时我们找了两方面的数据，一方面就是（微博数据），因为微博上也经常有谣言出现，有辟谣，对吧？然后我们可以用微博自己的这些谣言数据来做训练数据集，然后我们还可以去找公开的、和疫情无关的一些谣言数据，这些数据也可以对我们有用。
比如有些谣言是跟预防、治疗有关的。像双黄炎口服液能不能治疗新冠，比如什么业主投票，不让医务人员进小区，等等，所以建了这样一个数据集。我们还找了一些公开的一些数据集来做谣言的分析，譬如丁香辟谣，微博辟谣，我们就建立了一个谣言的这样的一个（数据）库。

文章插图
2020年1月辟谣信息汇总图源：@微博辟谣
然后我们就研究算法，从算法角度来说的话，辟谣实际上也就是一个分类问题，跟我们其他的比如像情感分类、主题分类也没有太大的区别，我们主要是要人去标上一批谣言，然后中间去自动地用神经网络去提特征，这个是传统的思路来做。后来我们还继续做了一些理论研究，我们发了一些谣言检测的文章。这一块的思路是这样：假设新浪微博上，一个新的事情出来了，就有谣言，我不仅可以从内容去分析，还可以从你后续发展（去分析），比如我们说可以“让子弹飞一会儿”，因为谣言出来之后下面有很多评论，可能会有一些人附和他，会有一些人质疑他，而且随着时间的迁移，质疑会越来越多，所以我们可以根据这个信息瀑布流去分析。
我们可以通过用户的跟进的反馈，还有像随着时间的迁移，后续的变化趋势，去预测谣言，做的还可以，我们去年发了COLING的文章，就是用信息流做谣言监测——用这种消息的交互，然后对它进行建模，然后去做谣言检测。

访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授｜“NLP+媒体”：科技向善，做有挑战的事( 六 )

推荐阅读

大庆小学生什么时候放暑假 2022大庆暑假老师学生可以离庆

朴宝剑新浪微博超话社区朴宝剑有新浪微博吗？

秋季潮男服装搭配技巧是什么秋季潮男服装搭配技巧

怎么把手机投屏到海信电视上

孔雀命是什么意思解释孔雀命是什么意思

怎么才会怀孕想要怀孕应该做些什么准备？

关于浙江农业学报简述浙江农业学报

珠海板樟山新增隧道通车了吗珠海樟子隧道

怎样使用海钓手把轮进来看看

荧光鼠荧光板

天秤座男生占有欲强吗表现是什么

秃头怎么办有哪些治疗办法

在之前已经看好了爱楼上的一套125万的二手房，想问下福州二手房公积金贷款额度是多少？怎么计算的？

2022南京前5人气好的浦口区有没有意大利语培训中心推荐机构出炉

做一位职场妈妈，我没有选择

中山是几线城市2020

木耳水开煮几分钟能熟啊木耳开水水开后煮几分钟能熟

【健康知识】为什么核酸24小时阴性还是黄码核酸24小时不出结果该怎么办!

卡罗拉和花冠的区别有哪些购买时该怎么选择

关于鼬龙类简述鼬龙类