Meta开发能边听边看的语音识别模型,语音转文字错误率大幅下降

Meta新的语言模型AV-HuBERT,能够连结语音和影像中说话者的嘴唇动作,提升语音识别抗噪效果,使单字错误率大幅下降

Meta开发能边听边看的语音识别模型,语音转文字错误率大幅下降

Meta发布最新语音识别技术成果,这个被称为AV-HuBERT(Audio-Visual Hidden Unit BERT)的语言模型,是一个先进的自我监督框架,可同时利用视觉和听觉讯号来理解语音内容。 研究人员提到,这是第一个利用未标记数据,链接语音和嘴唇动作建模的系统,且只要使用十分之一的训练数据,就可有效提升语音识别准确率。

目前人工智能被广泛地用于语音识别和理解任务,开发像是语音助理或是听障应用,但研究人员提到,这些语言理解系统,常在最需要的情境中无法正常运作,像是多人同时说话,或是有大量背景噪音时,即便是复杂的噪音抑制技术,也难以克服沙滩上的海浪声,和车水马龙街头市场的吵杂声。

而之所以在这些情况下,人们可以比人工智能更好地理解语音,原因之一便是人类不只使用耳朵,还会同时用上眼睛,像是当有人的嘴巴在动,便会直觉认为声音来自于那个人。 透过这样的启发,Meta开发最新的对话式人工智能系统,使系统能够在对话中,关联看到和听到的内容,就像人类一样。

目前的语音识别系统,都只采用音频输入,因此必须要猜测有几个说话者,或者是否包含背景噪音等问题,而AV-HuBERT与人类一样采用多模式学习,通过结合音频和嘴唇动作提示,来感知和学习语言。 研究人员使用公共LRS3和VoxCeleb录像数据集来训练模型,而由于多了视觉线索,因此AV-HuBERT可以有效地捕捉输入串流的细微差别,可大幅减少用于预训练的数据量。

研究人员提到,一旦预训练模型学习了结构与相关性,便只需要少量标记资料,就可以完成对特定任务或不同语言的模型训练。 实验证实,AV-HuBERT能够获得高质量的语音识别效果,当语音和背景噪音一样大声的情况下,目前最先进的模型AV-ASR,即便在使用433小时的标记数据训练后,仍然有25.5%的错误率,但是AV-HuBERT却只有3.2%。

也就是说,AV-HuBERT每听到30个单字,仅会犯1个错误,研究人员表示,当噪音和要转录的语音一样大声时,纯音频语音识别模型不可能知道,哪一个才是转录的目标,而相比之下,AV-HuBERT只转录可见的说话者语音,因此WER(Word Error Rate)只有3.9%,而纯音频识别软件WER则高达37.3%。

当标记数据只有30小时的低资源配置,在各种分贝的杂音、语音和音乐等噪音干扰下,AV-HuBERT与没有预训练的纯语音识别模型相比,绝对WER减少51.4%。 而且当系统可以看到说话者,但无法听到声音的情况,过去最先进的模型,在经过31,000小时的转录视讯资料训练后,可以在标准LRS3基准资料集上, 达到33.6%的WER,而AV-HuBERT大幅超越了这项成果,仅使用30小时的标记资料,以及少一个量级的未监督影像资料,就可以达到28.6%的WER,而且在使用433小时的标记资料后,可以达到26.9%的WER,刷新目前纪录。

AV-HuBERT不仅能应付棘手转录场景的对话式人工智能系统,由于训练所需要的监督资料要少得多,因此还可以用来开发少资源的语言模型。 另外,AV-HuBERT能够从语音和嘴唇动作中学习,所以也可用来开发更具包容性,适用于语言障碍者的应用。

因为 AV – HuBERT 能够捕捉声音和嘴巴的精细关联,也有助于侦测深度伪造,和其他纵,用来误导观众的内容,从另一方面来看, AV – HuBERT 还能够被用于在虚拟现实中的替身角色,实现逼真的嘴唇动作,提供更真实的感觉。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论