Amazon百亿参数模型小样本学习胜过GPT-3、PaLM千亿参数大模型

cnBeta • 2023年9月28日 09:21 • 游戏评测

Amazon以新范式改善Alexa人工智能，模型只需最少的人工输入，就能将知识在不同语言中转移，官方提到，这样的模型有效提高新功能的开发速度，并且能够同时在多种语言上改进Alexa。当前人工智能的主要进步都来自监督式学习，也就是使用带注解的数据训练模型，但Amazon提到，随着商业人工智能规模不断扩大，仰赖注解的方法变得不可行。

为了解决这个问题，Amazon发展出了新方法，引入基于Transformer的大规模多语言模型AlexaTM（Alexa Teacher Models），只需要给几个任务提示，AlexaTM就能够将已知的知识，从一个语言转移到另一个新语言，而这过程不需要额外的人工监督。

仅有200亿参数的AlexaTM 20B，在多种语言任务上优于拥有数千亿参数的大型模型。 AlexaTM 20B不仅可以跨语言迁移所学知识，还可以从小样本中学习新任务，官方提到，他们的研究是受到OpenAI GPT-3模型的启发，但是相较于其他唯解码器架构的大型语言模型，AlexaTM 20B采用序列到序列（seq2seq）的编码器-解码器架构。

AlexaTM 20B在翻译和文本摘要的效果优于GPT-3，同时也支持更多的语言，包括阿拉伯语、英语、法语、泰米尔语和泰卢固语等。而且因为AlexaTM 20B的参数数量较少，且Amazon对训练引擎的改进，因此AlexaTM 20B在训练期间的碳足迹，只有GPT-3的五分之一。

不只如此，在给定单个文章摘要的情况下，AlexaTM 20B可以比拥有5，400亿参数的PaLM 540B模型，生成更高质量的英语、德语和西班牙语摘要。

而在Flores-101数据集上，AlexaTM 20B的小样本机器翻译，几乎大胜所有语言模型，特别是在马拉地语、泰米尔语和泰卢固语等低资源语言间翻译的效果更好。官方提到，这表示他们大规模seq2seq方式的预训练，可以提高低资源语言的机器翻译质量，与需要平行翻译数据进行训练的多对多机器翻译系统相比，从不同语言进行翻译对AlexaTM 20B可说是毫无难度。

AlexaTM 20B是目前最大的多语言seq2seq模型，能够进行小样本学习，Amazon现在对外释出，限用于非商业用途，以促进开发和评估多语言大型语言模型。

而Amazon经过分析，发现AlexaTM 20B与其他大型语言模型一样，产生的内容可能包含来自训练数据中的有毒语言、社会偏见和刻板印象，因此官方提醒用户，需对该模型的使用进行完整的公平和偏见分析，以充分了解可能产生的危害。