推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能( 三 )


Explanations: LIME是一种事后解释方法 。
参考链接:https://cloud.tencent.com/developer/news/617057
https://blog.csdn.net/weixin_42347070/article/details/106455763
https://blog.csdn.net/weixin_42347070/article/details/106076360
0.2.3 Quantifying Attention Flow in TransformersRollout: Quantifying Attention Flow in Transformers, Abnar et al. 2020 https://arxiv.org/abs/2005.00928
在 Transformer 模型中,“self-attention”将来自参与嵌入的信息组合到下一层焦点嵌入的表示中 。因此 , 在 Transformer 的各个层中,来自不同令牌的信息变得越来越混合 。这使得注意力权重在解释探测时变得不可靠 。在本文中,我们考虑通过自我注意来量化这种信息流的问题 。我们提出了两种在给定注意力权重、注意力推出和注意力流的情况下将注意力近似于输入令牌的方法,作为使用注意力权重作为输入令牌的相对相关性时的事后方法 。我们表明,这些方法对信息流给出了互补的观点,并且与原始注意力相比 , 

推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能

文章插图
参考链接https://blog.csdn.net/Western_europe/article/details/109611695
1.项目主要内容:
推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能

文章插图
推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能

文章插图
7.总结各个方法对比可以看每个章节的小结
总结下来:实例级证据分析方法RepresenterPointModel和FeatureSimilarityModel整体取得效果更佳,主要原因在于可以判别出需要标注的数据,这样在部分样本下就能取得更好的效果 。
github提了一个issue关于PaddleNLP在持续学习这块的迭代期待:https://github.com/PaddlePaddle/PaddleNLP/issues/3395
问题背景:2021-11-29 :百度ERNIE-Health登顶中文医疗信息处理CBLUE榜单冠军:https://baijiahao.baidu.com/s?id=1717731573139745403&wfr=spider&for=pc
2022-04-13 :云知声登顶中文医疗信息处理挑战榜CBLUE 2.0:https://baijiahao.baidu.com/s?id=1729960390071520105&wfr=spider&for=pc
2022-05月份: 艾登&清华团队在中文医疗信息处理挑战榜喜创佳绩:https://www.cn-healthcare.com/articlewm/20220606/content-1372998.html
1.可以看到在CBLUE榜单上,ERNIE最先刷榜登顶,后续有一些别的团队再更新刷榜 。通过模型对比,我相信ERNIE一定是NLP领域前沿模型,效果性能都很优越 。而后续新榜单模型,在算法模型的优化侧重点可能没那么大,感觉更多的会对数据集的处理上下了很大功夫 。模型差不多情况下 , 不同数据增强等技术影响还是比较大的,然后不断迭代 。
2.看到paddlenlp已经推出了:pipelines面向 NLP 全场景为用户提供低门槛构建强大产品级系统的能力,通过一种简单高效的方式搭建一套语义检索系统,使用自然语言文本通过语义进行智能文档查询 。
因此引出了一个问题:关于持续学习
目前看到在paddlenlp 提供了一些数据优化的方法:如:AITrust等可信分析,以及BML平台上看到的智能标注(或者个人依赖ERNIE生成的教师模型) , 来提供相对较高质量的标注数据 。
但感觉在模型迭代过程中更多的是点状,是靠人工进行一个个串行起来 。希望可以出现一个持续学习模型的流程(自动化)和这些技术结合起来,还是有很大意义的 。
项目链接:https://aistudio.baidu.com/aistudio/projectdetail/4622139?contributionType=1fork一下自己跑下项目即可,由于内容过多这里就不全部写出来了 。
【推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能】

推荐阅读