Momentum Contrast for Unsupervised Visual Representation Learning (MoCo)

用于视觉表示学习的动量对比。

作者：Kaiming He 以及FAIR的一众大佬

简介

这篇文章主要解决的是无监督视觉表示学习问题。作者从将对比学习看做字典查找（dictionary look-up）出发，使用队列（queue）和滑动平均编码器（moving-averaged encoder）构建动态字典。这一做法使得通过在线构建大容量且协调的字典来实现对比无监督学习成为可能。作者表示，该方法在7种检测和分割任务上超过了有监督学习方法。

内容

在自然语言处理（natural language processing, NLP）领域，无监督学习已经取得了巨大的成功，但是在计算机视觉（computer vision, CV）领域仍旧以有监督学习为主。造成这一差距的原因在于，CV和NLP具有不同的信号表示空间，NLP的信号空间是离散的（words、sub-words units），这是有利于构建字典的；而CV的信号是连续、高纬度且对于人类通讯来说是非结构化的，这一特点不利于构建字典。

目前，已经有一些方法借助对比损失（contrastive loss）在无监督视觉表示学习领域取得了可观的成果，这些方法都可以被视作构建动态字典。字典中的键值从数据中采样得到（图片或patches），并使用编码网络对这些数据进行表示。无监督学习训练编码器进行字典查找：被编码的查询集应该与其所匹配的键值相似，而与其他的键值具有较大的差距。学习过程被表示为最小化对比损失。

从这一观点出发，作者认为所构建的字典应该具有以下的特点：

具有大容量；
在训练过程中保持前后一致。

原因在于：更大容量的字典有利于更好地对连续且高维度的视觉空间进行采样；同时字典中的键值应该使用相同或类似的编码特征进行表示，因而这些键值与查询集的对比是连续的。然而，当前使用对比损失的方法在这两点中的一点存在限制。

本文中提出的MoCo方法借助对比损失来构建大容量且协调的字典以处理无监督学习问题，如下图所示：

如上图所示，作者将字典表示为数据采样的队列：当前mini-batch的编码表示特征被入队，旧的mini-batch的编码表示特征被出队。队列的使用使得字典的大小和mini-batch的大小无关，因而字典可以有很大的容量；同时，字典的键值来自于先前的几个mini-batches的融合，使用查询集编码特征的基于动量的滑动平均值计算得到，保证了字典的持续性。

方法

使用对比学习进行字典查找

给定已经编码的查询集$q$和使用已编码的样本集合$\{k_0,k_1,…k_n\}$作为键值的字典。假设，对于$q$来说，在字典中只有单个键值$k_+$与其匹配。当$q$与其正键值$k_+$相似，而与其他键值（负键值）不相似时，对比损失具有较小的值。在本文中使用的是对比损失的一种：InfoNCE，使用点乘对相似度进行度量：

InfoNCE

其中，$\tau$为温度超参数。

对比损失被用于无监督学习的目标函数，来训练编码器网络对查询集和键值进行表示，如：$q=f_q(x_q)，k=f_k(x^k)$。其具体形式取决于具体的任务。

动量对比

将字典设计为队列的形式

字典应该是动态的、且键值由随机采样产生，键值的编码在训练过程中进行迭代。字典中的样本被持续更新，当前mini-batch被压入队列，队列中较早的mini-batch则被移除。字典总是代表着所有数据的子集。

使用动量的形式进行更新

使用队列的形式可以使得字典变得很大，但同时也使得使用反向传播更新键值编码器变得困难（每一次都需要对队列中的所有样本进行梯度反向传播）。一个简单的解决方法是直接复制查询集编码器$f_q$，用于替代键值编码器$f_k$，同时忽略梯度。但在实际中，这种方法效果不行。作者认为这是由于快速改变的编码器降低了键值表示特征的连续性，为此，提出了动量更新方法。

将键值编码器的参数表示为$\theta_k$，查询集编码器的参数表示为$\theta_q$，使用如下方式更新$\theta_k$：

其中，$m\in[0,1)$。实验表明，较大的系数优于相对较小的系数，说明缓慢更新键值编码器很重要。

几种不同的对比损失

如下图所示：

左侧第一种：使用当前mini-batch实时更新查询集编码器和键值编码器；

中间：构造memory bank，所有样本的编码特征都被存储在memory bank中；

右侧：本论文提出的方法，使用动量法实时更新键值编码器的参数。

算法流程

伪代码如下：

在上述代码中，每次迭代时，对相同的样本使用了不同的数据增强方法，将结果分别作为查询集和键值。

何凯明无监督论文-Momentum Contrast for Unsupervised Visual Representation Learning (MoCo)