论文题目:《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》Abstract
论文作者:Qibin Hou, Zihang Jiang, Li Yuan et al.
论文发表年份:2022.2
模型简称:ViP
发表期刊: IEEE Transactions on Pattern Analysis and Machine Intelligence
在本文中,我们提出了一种概念简单、数据高效的类似MLP的视觉识别体系结构——视觉置换器(Vision Permutator) 。不同于最近的类似MLP的模型大都沿着平坦的空间维度编码空间信息 。由于认识到二维特征表示所携带的位置信息的重要性,Vision Permutator通过线性投影分别对沿高度和宽度维度的特征表示进行编码 。这使得Vision Permutator可以沿着一个空间方向捕获远程依赖关系,同时保持沿着另一个方向的精确位置信息 。由此产生的位置敏感输出,然后以相互补充的方式聚合,形成感兴趣的对象的表达 。Vision Permutator由纯1 × 1卷积组成,但可以对全局信息进行编码 。Vision Permutator也消除了对自注意力的依赖,因此效率更高 。开源代码: https://github.com/Andrew-Qibin/VisionPermutator
Method
文章插图
Vision Permutator从与Vision Transformers类似的tokenization操作开始,它将输入图像统一地分割为小块,然后将它们映射到带有线性投影的token embedding 。然后将形状为“height×width×channels”的结果token embeddings到Permutator block序列中,每个Permutator block由一个用于空间信息编码的Permute-MLP和一个用于通道信息混合的Channel - MLP组成 。Permute-MLP层如下图所示,
文章插图
Permute-MLP层由三个独立的分支组成,每个分支沿特定的维度编码特征,即高度、宽度或通道维度 。Channel-MLP模块的结构与Transformer中的前馈层相似,包括两个完全连接的层 , 中间有一个GELU激活 。公式如下:
文章插图
对于Channel信息编码,只需要一个权重WC∈RC×C的全连接层,就可以对输入X进行线性投影,得到XC 。对于高度信息编码,首先对传入的分割好的每个tokens作维度变换(ex:Transpose the first (Height) dimension and the third (Channel) dimension: (H, W, C) → (C, W, H).)然后沿着通道维度连接它们作为Premute的输出,传入Linear Projection:连接权重为WH∈RC×C的全连接层 , 混合高度信息 。再通过维度变换复原输入维度 。对宽度信息编码作类似处理,最后讲三个分支的输出加和作为最后全连接层的输入 。Linear Projection的输出公式表示如下:(最后输出再与input tokens作跳跃连接得到最终Permute-MLP的输出 。)
文章插图
Weighted Permute-MLP:上述方法只是简单地将所有三个分支的输出通过元素相加来融合 。在这里,我们通过重新校准不同分支的重要性 , 进一步改进了上述Permute-MLP,并提出加权Permute-MLP 。这可以通过利用分散注意力(split attention)实现 。不同的是,分散注意力应用于XH、XW和XC,而不是由分组卷积生成的一组张量 。在下文中,我们默认使用Permutator中的加权Permute-MLP 。
Experiment
与ImageNet上最近的类MLP模型比较Top-1精度,所有模型都是在没有外部数据的情况下进行训练的 。在相同的计算量和参数约束下,我们的模型始终优于其他方法 。
文章插图
与ImageNet上的经典CNN和Vision Transformer的精度比较 。所有模型都是在没有外部数据的情况下进行训练的 。在相同的计算和参数约束下 , 我们的模型可以与一些强大的基于CNN和基于Transformer的模型竞争 。
文章插图
.
【《Vision Permutator: A Permutable MLP-Like ArchItecture For Visual Recognition》论文笔记】
推荐阅读
- 《Thinking In Java》作者:不要使用并发!
- 24 《吐血整理》高级系列教程-吃透Fiddler抓包教程-Fiddler如何优雅地在正式和测试环境之间来回切换-中篇
- 《HelloGitHub》第 78 期
- PSA 谣言检测——《Probing Spurious Correlations in Popular Event-Based Rumor Detection Benchmarks》
- FF14金蝶币怎么刷 幻卡王攻略
- 第一次更新 《Go 精进之路》 读书笔记
- GACL 谣言检测《Rumor Detection on Social Media with Graph Adversarial Contrastive Learning》
- 26 《吐血整理》高级系列教程-吃透Fiddler抓包教程-Fiddler如何抓取Android7.0以上的Https包-上篇
- 25 《吐血整理》高级系列教程-吃透Fiddler抓包教程-Fiddler如何优雅地在正式和测试环境之间来回切换-下篇
- 《阿凡达4》正式开拍,阿凡达4豆瓣