访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授｜“NLP+媒体”：科技向善，做有挑战的事( 十 )

文章插图
Hard debias，图源：towardsdatascience
如果我们这样做了之后，我们马上就会发现我们下游任务的性能下降了。从学术角度来说，准确率不应该是我们所关心的唯一的指标，我们也应该有这个价值观，我们怎么样能够去引导更加公平、更加平等的社会。
未来媒体访谈：其实像道德伦理已经变成了ACL的一大类别了。
黄萱菁：对，20个之一。
未来媒体访谈：对您来说，您只是从一个研究者的角度上去看的话，您觉得符合道德规范或者是道德反思做得比较好的研究应该有什么标准？您自己是怎么做这一块的反思的？
黄萱菁：其实说到伦理，它不仅仅是ACL系列的一个大类之一。我今年正好是 EMNLP的程序主席，我可以跟你讲讲我们论文的这样的一个评审过程。我们除了常规的根据论文的学术质量做评审，在投稿的时候，作者是可以写一个声明的，声明他这块工作中间的有可能有哪些伦理问题。举个例子，比如有个人在做怎么消除互联网上的污言秽语。这样的工作需要有这个人去标注垃圾用语，很可能就会把这个标注人员搞得抑郁了。
所以就是说做研究的话，我们不仅仅是不能把人当工具，也要考虑到这块工作会对从业者产生什么样的一些心理影响，这是一方面。另外一方面，就像刚才说的，如果我采集数据，数据中有很多隐私，隐私数据要清洗。比如疫情防控中间的疫情流调报告，如果漏了很多隐私，会成为吃瓜群众吃瓜的乐趣，但其实这些都不是很好的行为。
所以我们会要求作者去做一个自我声明，（说明）你的研究工作可能会带来什么样的不良伦理后果。这个声明实际上不是我们自然语言处理首先发明的，是我们引入的。有了作者自己对伦理方面的声明之后，我们会在评审过程中要求审稿人不仅要看论文的学术质量，也要看论文中间是不是会存在一些伦理风险。
考虑的比较多的有我刚才说的隐私问题，然后还有对人的（影响）的问题，还有工作的价值观是不是特别好。我们甚至可能会鼓励一些工作，你可能看它的新颖性不是特别的好，但是它是值得鼓励的，比如小语种的信息处理，像我们国内的一些少数民族语言，（这些研究）因为数据比较少，可能性能不太好，但是我们也要鼓励它，因为有重要的社会效益。在国际上的话，比如说做非洲语言的研究都是值得关注的。

文章插图
ACL Ethics FAQ 图源： 2021.aclweb.org
审稿人员会去看文章，判断它潜在的一些伦理风险，之后我们还成立了独立的伦理委员会，会去对这些文章（进行判断），如果它存在的伦理问题足够严重，那必须拒稿或者重新打回给作者，所以整个学术圈其实已经有了很多机制。我们开始关心伦理其实是比传媒、生物都要晚一点点，关注之后就觉得这里头是有很大的问题，因为我们总归是要说科技向善，要关注它的社会效益，怎么样为全人类的福祉而服务。

文章插图
ACM Code of Ethics 图源：acm.org
“现在是你们最好的时机”
未来媒体访谈：咱们最后一个问题围绕人工智能这个领域的性别平等，像刚才老师说了，如果在语义表示这一方面，我们可以用算法去纠偏，去把性别偏向逐渐的把它改过来，如果是从社会学的角度去切入这个问题的话，我们可能希望人工智能以及计算机这个领域的研究者也好、从业者也好，性别比例能够不这么悬殊。所以想问一问您，对未来有志于从事人工智能这方面领域的女性，有没有什么心得可以分享？

访谈|#NLP太难了# 未来媒体访谈对话黄萱菁教授｜“NLP+媒体”：科技向善，做有挑战的事( 十 )

推荐阅读

秋季潮男服装搭配技巧是什么秋季潮男服装搭配技巧

怎么才会怀孕想要怀孕应该做些什么准备？

天秤座男生占有欲强吗表现是什么

【健康知识】为什么核酸24小时阴性还是黄码核酸24小时不出结果该怎么办!

大庆小学生什么时候放暑假 2022大庆暑假老师学生可以离庆

怎样使用海钓手把轮进来看看

朴宝剑新浪微博超话社区朴宝剑有新浪微博吗？

木耳水开煮几分钟能熟啊木耳开水水开后煮几分钟能熟

秃头怎么办有哪些治疗办法

孔雀命是什么意思解释孔雀命是什么意思

中山是几线城市2020

关于鼬龙类简述鼬龙类

卡罗拉和花冠的区别有哪些购买时该怎么选择

2022南京前5人气好的浦口区有没有意大利语培训中心推荐机构出炉

关于浙江农业学报简述浙江农业学报

做一位职场妈妈，我没有选择

怎么把手机投屏到海信电视上

荧光鼠荧光板

在之前已经看好了爱楼上的一套125万的二手房，想问下福州二手房公积金贷款额度是多少？怎么计算的？

珠海板樟山新增隧道通车了吗珠海樟子隧道