Amazon百亿参数模型小样本学习胜过GPT-3、PaLM千亿参数大模型

AlexaTM 20B模型受惠于其新的编码器-解码器架构,在摘要和机器翻译等小样本任务上,优于其他更大型的语言模型

Amazon百亿参数模型小样本学习胜过GPT-3、PaLM千亿参数大模型

Amazon以新范式改善Alexa人工智能,模型只需最少的人工输入,就能将知识在不同语言中转移,官方提到,这样的模型有效提高新功能的开发速度,并且能够同时在多种语言上改进Alexa。 当前人工智能的主要进步都来自监督式学习,也就是使用带注解的数据训练模型,但Amazon提到,随着商业人工智能规模不断扩大,仰赖注解的方法变得不可行。

为了解决这个问题,Amazon发展出了新方法,引入基于Transformer的大规模多语言模型AlexaTM(Alexa Teacher Models),只需要给几个任务提示,AlexaTM就能够将已知的知识,从一个语言转移到另一个新语言,而这过程不需要额外的人工监督。

仅有200亿参数的AlexaTM 20B,在多种语言任务上优于拥有数千亿参数的大型模型。 AlexaTM 20B不仅可以跨语言迁移所学知识,还可以从小样本中学习新任务,官方提到,他们的研究是受到OpenAI GPT-3模型的启发,但是相较于其他唯解码器架构的大型语言模型,AlexaTM 20B采用序列到序列(seq2seq)的编码器-解码器架构。

AlexaTM 20B在翻译和文本摘要的效果优于GPT-3,同时也支持更多的语言,包括阿拉伯语、英语、法语、泰米尔语和泰卢固语等。 而且因为AlexaTM 20B的参数数量较少,且Amazon对训练引擎的改进,因此AlexaTM 20B在训练期间的碳足迹,只有GPT-3的五分之一。

不只如此,在给定单个文章摘要的情况下,AlexaTM 20B可以比拥有5,400亿参数的PaLM 540B模型,生成更高质量的英语、德语和西班牙语摘要。

而在Flores-101数据集上,AlexaTM 20B的小样本机器翻译,几乎大胜所有语言模型,特别是在马拉地语、泰米尔语和泰卢固语等低资源语言间翻译的效果更好。 官方提到,这表示他们大规模seq2seq方式的预训练,可以提高低资源语言的机器翻译质量,与需要平行翻译数据进行训练的多对多机器翻译系统相比,从不同语言进行翻译对AlexaTM 20B可说是毫无难度。

AlexaTM 20B是目前最大的多语言seq2seq模型,能够进行小样本学习,Amazon现在对外释出,限用于非商业用途,以促进开发和评估多语言大型语言模型。

而Amazon经过分析,发现AlexaTM 20B与其他大型语言模型一样,产生的内容可能包含来自训练数据中的有毒语言、社会偏见和刻板印象,因此官方提醒用户,需对该模型的使用进行完整的公平和偏见分析,以充分了解可能产生的危害。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论