MogaNet: MULTI-ORDER GATED AGGREGATION NETWORK (ICLR 2024)
MogaNet: MULTI-ORDER GATED AGGREGATION NETWORK (ICLR 2024)
本文出发点:
- 随着卷积核大小的增加,它们在编码交互方面存在瓶颈。
- 多阶博弈论揭示了现代卷积网络的表示瓶颈,研究表明,现有的DNNs倾向于编码极低阶或极高阶的交互,而忽视了更具表现力和适应性的中间阶交互。
本文贡献:
现代的ConvNets在ViT的启发下,通过采用大型卷积核和深度卷积操作,展示了在全局感知方面的潜力。这些网络通常包含三个主要组件:embedding stem(进行下采样,减少冗余计算)、spatial mixing block(指各种空间操作,例如自注意力)和channel mixing block(通常通过具有倒置结构的通道 MLP来实现),本文也沿用了这样的结构。通过引入多阶门控聚合(Moga)模块和通道聚合模块,旨在自适应地强调在空间和通道维度上原本会被忽略的表达性交互。
本文提出了一个纯卷积Backbone,设计了一个四阶段的网络结构,输入图像或特征首先被送入一个Embedding Stem中进行下采样并调整通道,紧接着被送入到若干个MogaBlock中得到最终的输出。
所提出的方法:
SA(Spatial Aggregation) Block—>Moga Block
SA块作为SMixer(·)的实例化,如上图中(a),SA Block由两个级联的部分组成,左侧蓝色阴影部分称为特征分解模块(简称为FD->feature decomposition ),右侧表示多阶门控聚合模块,包括两个分支,分别是门控分支$F$,上下文分支$G$,整体用公式可表示为:
- 特征分解模块FD:(对应上图中(a)左侧蓝色区域)
为了迫使网络对抗其隐含的交互强度,本文设计了FD(·)来自适应地排除被忽略的相互作用。
FD包含了两个互补的部分,分别细粒度的局部纹理(低阶,经过1×1卷积左侧分支,对应公式中$Y$),以及复杂的全局形状(中阶,经过1×1卷积再全局平均池化 GAP的分支,对应公式中$GAP(Y)$),再加上残差连接进行相加,得到多阶门控聚合模块的输入$Z$。$\gamma_s$表示一个权重,通过对$Y-GAP()$加权 , FD增加了空间多样性。
- 多阶门控聚合模块MOGA(对应上图中(a)右侧区域)
在右侧上下文分支中利用DWConv(Depth-Wise)来集成多阶特征,采用三个并行的具有不同膨胀率的 DWConv 层,分别来获取低阶、中阶、高阶交互;首先对输入低阶特征应用5×5的DWConv,得到输出,沿通道维度按比例3:1:4分解为三组,其中中阶特征为左侧分支,高阶特征为右侧分支,之后对中阶和高阶特征分别送入5×5和7×7的DWConv层中,比例为$1/8$的低阶特征进行相同的映射,得到的三个特征再拼接起来形成多阶上下文。相比于之前的方法只增加了很小的参数量,同时精度也有较大提高。
自适应聚合从上下文分支中提取的特征,使用SiLU激活函数,也就是$x·sigmoid(x)$,相对于Sigmoid有更好的稳定性。两个分支通过SiLU函数,再进行对应元素相乘,得到SA模块最终输出$Z$。经过SA模块,MoGaNet获取了更多的中阶表示,如下相互作用强度的分布图,可以看到图中MogaNet在中阶表示上的强度高于其他方法。
CA(Channel Aggregation) Block
CA Block是一个轻量级的通道聚合模块,可以自适应地重新分配高维隐藏空间中的通道特征。
- 通道重分配 (Channel Reallocation):
通过1x1的卷积和3x3深度卷积 (DWConv) 来重新分配通道权重,增强了最初被忽视的博弈论交互,使用GELU激活函数来增强通道间的非线性交互。
- 通道聚合 (Channel Aggregation):
通过设计一个通道减缩减投影 (Channel-Reducing Projection) 来聚合通道信息,通过学习到的通道权重$\gamma_c$来调整特征图的每个通道。
通过聚合操作,CA Block能够强化那些在原始特征中被忽视的交互,从而提升特征的表达能力。同时,对于图(c)中,验证了普通MLP和压缩通道的MLP以及带有本文提出的CA Block的MLP的比较,相比于前两个,MLP w/CA只需要更小的MLP比率,且同等表现下所需要的参数量更小。