Meta开源第一个适用于文字、声音和图像的高性能自我监督算法Data2vec

Meta在自我监督学习技术上，取得最新进展，其所开发的Data2vec，是第一个适用于多模式的高性能自我监督算法，可以分别应用于语音、图像和文字，效能比过去仅针对计算机视觉和语音的算法更好，并且在NLP任务也具有一定的水平。

研究人员提到，现在大多数的人工智能技术，仍然是以监督学习作为基础，必须使用标记资料。不过有许多人类希望机器人做的事情，不可能收集到标记资料，像是虽然目前有许多研究人员，在收集英语语音和文字，来创建大规模标记数据集，但对于地球数以千计的语言来说，这种方法并不可行。

但自我监督技术，能够让电脑自己观察世界，并且弄清楚图像、语音和文字的结构，Meta提到，对于不用明确教导分类图像，或是理解口语的机器，可扩展性高上许多。

但现在自我监督学习的研究，几乎都集中在同一种模态上，Mata举例，像是文字，研究人员训练模型来填补句子的空白，语音模型则需要预测语句中缺失的声音，对计算机视觉任务而言，模型要从多张图像里，找到更为相关的照片。

算法在不同的模态使用不同的处理单位，视觉是以像素或是视觉标记为预测单位，文字是单字，而声音则是音频波形等。算法设计会与特定的模态关联在一起，算法底层的实作也不相同。

而Meta最新开发的Data2vec则简化了这个麻烦，无论模态为何，能够对不同的输入数据，预测各自的表示（Representation）。这些表示为神经网络的分层，而不是单词或是波形，这消除了学习任务中对特定模态目标的依赖。

Meta的方法是使用一个导师网络，计算图像、文字和声音中的表示，接着遮蔽部分输入，要学生模型重复该过程，并且预测导师网络的潜在表示，学生模型必须在只看过部分信息的情况下，预测完整输入数据的表示。导师网络和学生模型相同，但权重略为过时。

Meta使用ImageNet计算机视觉基准来测试Data2vec，在一般的模型大小中，Data2vec比现在所有方法表现都还要好，语音上的效能表现，更胜于wav2vec 2.0或HuBERT，在文字方面，效能与BERT重新实作的版本RoBERTa相同。

官方提到，Data2vec代表了一种新的自我监督学习范式，能够处理多模态，而非仅单一模态，而且Data2vec也不仰赖对照学习（Contrastive Learning）或是重建输入的范例。

因此Data2vec除了能够加速人工智能的发展，也更加能够构建无缝学习周围环境的各种机器，使得人工智能更具适应性，并拥有执行更多任务的能力。现在Meta对外开源代码以及预训练模型，让其他研究人员可以接续Meta的研究。