Longformer
- paper: Longformer: The Long-Document Transformer
- github:https://github.com/allenai/longformer
- 中文预训练模型:https://github.com/SCHENLIU/longformer-chinese
- Take Away: 滑动窗口稀疏注意力机制
文章插图
Longformer的3点主要创新是
- 滑动窗口attention(图b)
- 空洞滑窗attention(图C)
- 任务导向全局attention(图d)
Longformer的预训练是在Roberta的基础上用长文本进行continue train 。原始Roberta的position embedding只有512维 , 这里longformer把PE直接复制了8遍,得到4096维度的PE用于初始化,这样在有效保留原始PE局部信息的同时,也和以上512的window-size有了对应 。至于longformer的效果,可以直接看和下面BigBird的对比 。
Bigbird
- paper: Big Bird:Transformers for Longer Sequences
- github: https://github.com/google-research/bigbird
- Take Away: 使用补充固定token计算全局注意力
文章插图
又是一个非常清新脱俗的模型起名~ 大鸟模型和longformer相比增加了随机注意力机制,不过感觉主要的创新是对全局注意力机制进行了改良,提出了固定注意力patten的ETC全局注意力机制 。
- 随机注意力机制
- 全局注意力
整体效果 , 在QA和长文本摘要任务上上Bigbird基本是新SOTA
Reformer
先来看下原始Transformer的空间复杂度: \(max(b*l* d_{ffn}, b *n_{h} * l^2)*n_{l}\) 。其中b是batch,l是文本长度,\(d_{ffn}\)是Feed Forward层大小,\(n_{h}\)是多头的head size,\(n_l\)是层数 。Reformer引入了三个方案来降低Transformer的计算和内存复杂度
- paper: REFORMER: THE EFFICIENT TRANSFORMER
- github: https://github.com/google/trax/tree/master/trax/models/reformer
- Take Away: LSH搜索序列中的高权重token , 做固定长度局部注意力计算
推荐阅读
- 为什么阿里Java开发手册不推荐使用Timestamp
- 《黑色皮革手册》的原著叫什么名字?
- 黑莲花攻略手册讲什么故事 黑莲花攻略手册讲什么
- 斯巴鲁BRZ保养周期 斯巴鲁brz保养手册
- 学车一点通——深圳学车驾驶完全手册
- 评价手册家长的话内容 评价手册家长的话怎么写简短
- 机动车驾驶手册 汽车驾驶完全手册
- 2023鱼台义务教育入学服务平台操作手册
- 汽车保养周期手册大全 汽车保养内容周期全攻略
- 奇瑞a3维修手册 奇瑞A3汽车保养费用详解