Meta开源第一个适用于文字、声音和图像的高性能自我监督算法Data2vec

不同于过去仅能处理单一模态的自我监督算法,Data2vec能够处理文字、声音和图像,效能甚至超越当前该模态中最先进的算法

Meta开源第一个适用于文字、声音和图像的高性能自我监督算法Data2vec

Meta在自我监督学习技术上,取得最新进展,其所开发的Data2vec,是第一个适用于多模式的高性能自我监督算法,可以分别应用于语音、图像和文字,效能比过去仅针对计算机视觉和语音的算法更好,并且在NLP任务也具有一定的水平。

研究人员提到,现在大多数的人工智能技术,仍然是以监督学习作为基础,必须使用标记资料。 不过有许多人类希望机器人做的事情,不可能收集到标记资料,像是虽然目前有许多研究人员,在收集英语语音和文字,来创建大规模标记数据集,但对于地球数以千计的语言来说,这种方法并不可行。

但自我监督技术,能够让电脑自己观察世界,并且弄清楚图像、语音和文字的结构,Meta提到,对于不用明确教导分类图像,或是理解口语的机器,可扩展性高上许多。

但现在自我监督学习的研究,几乎都集中在同一种模态上,Mata举例,像是文字,研究人员训练模型来填补句子的空白,语音模型则需要预测语句中缺失的声音,对计算机视觉任务而言,模型要从多张图像里,找到更为相关的照片。

算法在不同的模态使用不同的处理单位,视觉是以像素或是视觉标记为预测单位,文字是单字,而声音则是音频波形等。 算法设计会与特定的模态关联在一起,算法底层的实作也不相同。

而Meta最新开发的Data2vec则简化了这个麻烦,无论模态为何,能够对不同的输入数据,预测各自的表示(Representation)。 这些表示为神经网络的分层,而不是单词或是波形,这消除了学习任务中对特定模态目标的依赖。

Meta的方法是使用一个导师网络,计算图像、文字和声音中的表示,接着遮蔽部分输入,要学生模型重复该过程,并且预测导师网络的潜在表示,学生模型必须在只看过部分信息的情况下,预测完整输入数据的表示。 导师网络和学生模型相同,但权重略为过时。

Meta开源第一个适用于文字、声音和图像的高性能自我监督算法Data2vec

Meta使用ImageNet计算机视觉基准来测试Data2vec,在一般的模型大小中,Data2vec比现在所有方法表现都还要好,语音上的效能表现,更胜于wav2vec 2.0或HuBERT,在文字方面,效能与BERT重新实作的版本RoBERTa相同。

官方提到,Data2vec代表了一种新的自我监督学习范式,能够处理多模态,而非仅单一模态,而且Data2vec也不仰赖对照学习(Contrastive Learning)或是重建输入的范例。

因此Data2vec除了能够加速人工智能的发展,也更加能够构建无缝学习周围环境的各种机器,使得人工智能更具适应性,并拥有执行更多任务的能力。 现在Meta对外开源代码以及预训练模型,让其他研究人员可以接续Meta的研究。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论