MogaNet: MULTI-ORDER GATED AGGREGATION NETWORK (ICLR 2024)

本文出发点:

  • 随着卷积核大小的增加,它们在编码交互方面存在瓶颈。
  • 多阶博弈论揭示了现代卷积网络的表示瓶颈,研究表明,现有的DNNs倾向于编码极低阶或极高阶的交互,而忽视了更具表现力和适应性的中间阶交互。

本文贡献:

现代的ConvNets在ViT的启发下,通过采用大型卷积核和深度卷积操作,展示了在全局感知方面的潜力。这些网络通常包含三个主要组件:embedding stem(进行下采样,减少冗余计算)、spatial mixing block(指各种空间操作,例如自注意力)和channel mixing block(通常通过具有倒置结构的通道 MLP来实现),本文也沿用了这样的结构。通过引入多阶门控聚合(Moga)模块和通道聚合模块,旨在自适应地强调在空间和通道维度上原本会被忽略的表达性交互。

本文提出了一个纯卷积Backbone,设计了一个四阶段的网络结构,输入图像或特征首先被送入一个Embedding Stem中进行下采样并调整通道,紧接着被送入到若干个MogaBlock中得到最终的输出。

image-20240927210443410

所提出的方法:

image-20240927210551795
SA(Spatial Aggregation) Block—>Moga Block

SA块作为SMixer(·)的实例化,如上图中(a),SA Block由两个级联的部分组成,左侧蓝色阴影部分称为特征分解模块(简称为FD->feature decomposition ),右侧表示多阶门控聚合模块,包括两个分支,分别是门控分支$F$,上下文分支$G$,整体用公式可表示为:

image-20240928161141570
  • 特征分解模块FD:(对应上图中(a)左侧蓝色区域)

为了迫使网络对抗其隐含的交互强度,本文设计了FD(·)来自适应地排除被忽略的相互作用。

image-20240928161157880

FD包含了两个互补的部分,分别细粒度的局部纹理(低阶,经过1×1卷积左侧分支,对应公式中$Y$),以及复杂的全局形状(中阶,经过1×1卷积再全局平均池化 GAP的分支,对应公式中$GAP(Y)$),再加上残差连接进行相加,得到多阶门控聚合模块的输入$Z$。$\gamma_s$表示一个权重,通过对$Y-GAP()$加权 , FD增加了空间多样性。

  • 多阶门控聚合模块MOGA(对应上图中(a)右侧区域)

在右侧上下文分支中利用DWConv(Depth-Wise)来集成多阶特征,采用三个并行的具有不同膨胀率的 DWConv 层,分别来获取低阶、中阶、高阶交互;首先对输入低阶特征应用5×5的DWConv,得到输出,沿通道维度按比例3:1:4分解为三组,其中中阶特征为左侧分支,高阶特征为右侧分支,之后对中阶和高阶特征分别送入5×5和7×7的DWConv层中,比例为$1/8$的低阶特征进行相同的映射,得到的三个特征再拼接起来形成多阶上下文。相比于之前的方法只增加了很小的参数量,同时精度也有较大提高。

image-20240928191843033

自适应聚合从上下文分支中提取的特征,使用SiLU激活函数,也就是$x·sigmoid(x)$,相对于Sigmoid有更好的稳定性。两个分支通过SiLU函数,再进行对应元素相乘,得到SA模块最终输出$Z$。经过SA模块,MoGaNet获取了更多的中阶表示,如下相互作用强度的分布图,可以看到图中MogaNet在中阶表示上的强度高于其他方法。

image-20240928195345692 image-20240928200142692
CA(Channel Aggregation) Block

CA Block是一个轻量级的通道聚合模块,可以自适应地重新分配高维隐藏空间中的通道特征。

  • 通道重分配 (Channel Reallocation):

通过1x1的卷积和3x3深度卷积 (DWConv) 来重新分配通道权重,增强了最初被忽视的博弈论交互,使用GELU激活函数来增强通道间的非线性交互。

  • 通道聚合 (Channel Aggregation):

通过设计一个通道减缩减投影 (Channel-Reducing Projection) 来聚合通道信息,通过学习到的通道权重$\gamma_c$来调整特征图的每个通道。

image-20240928202318469

通过聚合操作,CA Block能够强化那些在原始特征中被忽视的交互,从而提升特征的表达能力。同时,对于图(c)中,验证了普通MLP和压缩通道的MLP以及带有本文提出的CA Block的MLP的比较,相比于前两个,MLP w/CA只需要更小的MLP比率,且同等表现下所需要的参数量更小。