激活：CReLU¶

论文¶

"Understanding and Improving Convolutional Neural Networks via Concatenated Rectified Linear Units", ICML 2016, paper

摘要¶

最近，卷积神经网路 (CNN) 已被用作解决机器学习和计算机视觉等许多问题的强大工具。本文旨在提供对卷积神经网络特性的深入理解，以及提升许多 CNN 架构性能的通用方法。具体而言，我们首先考察了现有的 CNN 模型，并观察到一个有趣的特性：较低层的卷积滤波器成对出现（即具有相反的滤波器）。收到这种观察的启发，我们提出了一种新颖、简单而有效的激活方案，称为级联 ReLU (CReLU)，并在理论上分析器在 CNN 中的重构特性。我们将 CReLU 集成到几个最先进的 CNN 架构中，减少了可训练参数，并在 CIFAR-10/100 和 ImageNet 数据集上得到了识别性能提升。我们的结果表明，在更好地理解 CNN 的情况下，通过简单的改进，可以获得显著的性能提升。

观察与分析¶

图 1 AlexNet 第一层卷积滤波器可视化

通过对 AlexNet 第一层归一化的滤波器进行可视化，发现低层滤波器呈现“成对”的有趣现象，即对任意滤波器，总存在一个几乎和它相反的滤波器。更确切地说，加入某个滤波器的单位长度向量为 \(\phi_i\)，定义它的成对（相反）滤波器为 \(\overline{\phi_i}=\arg\min_{\phi_j} \left \langle \phi_i, \phi_j \right \rangle\)，同时定义其余弦相似度 \(\mu_i^\phi=\left \langle \phi_i, \overline{\phi_i} \right \rangle\)。

图 2 AlexNet 训练的和随机的卷积滤波器的余弦直方图分布

为了系统地研究更高层中的成对现象，对 conv1-conv5 绘制了如图 2 余弦直方图。其中蓝色的为训练后的卷积滤波器的余弦直方图，红色的是随机高斯初始化的余弦直方图。可以看出，随机初始化呈现出尖锐的以 0 为中心的分布，而经过训练的卷积滤波器呈现以负数为中心，且大幅度偏向于负数区域的现象，说明“成对”现象在较低层卷积滤波器中普遍存在。随着卷积层数的升高，这种分布偏向逐渐减弱，直到在 conv5 中几乎消失，说明“成对”现象在较高层卷积滤波器中逐渐减少。

从这种观察中，我们得到一种假设：尽管 ReLU 消除了线性响应的负数部分，但是 CNN 的前几层试图通过学习成对（负相关）的滤波器来同时捕获正相和负相的信息。这意味着我们可以利用这种成对先验，设计一种同时允许正负激活的方法，从而减轻由 ReLU 非线性引起的在卷积滤波器中的冗余问题，更有效地利用可训练参数。为此，我们提出了一种新的激活方案，CReLU (Concatenated ReLU)。

Caffe prototxt for CReLU and Keras AntiRectifier^[1] 模块可视化

实验¶

对比一半通道的 CReLU 和普通 ReLU 及 AVR (绝对值 ReLU)

表 1 CIFAR-10/100 对比实验

表 2 ImageNet 对比实验

引用¶

[1]: Keras AntiRectifier