Deepmind以红队模型自动化探索语言模型的有害行为

为了提高语言模型的实际可用性，降低可能产生有害结果的机率，谷歌旗下人工智能研究组织Deepmind，发明了以红队（Red Team）语言模型来产生测试使用案例，自动化发现目标语言模型可能出现有害结果，提高模型测试的效率与覆盖范围。

GPT-3和Gopher等大型语言模型，都具有生成高质量文字的能力，但事实上，这些模型都很难在实际使用案例中部署，研究人员解释，语言模型具有生成有害文字的可能性，即使是很小的危害风险，在实际应用中都难以被接受。 Deepmind利用经过训练的分类器，来评估语言模型所产生的内容，并从2，800亿参数的聊天机器人，发现数以万计具有攻击性的回复。

由于有太多的输入，可能使模型产生有害的文字输出，因此很难在模型实际部署前，找出所有有害行为的可能性，过去有研究使用人工来手动探索模型失败案例，Deepmind研究人员提到，这种方法虽然有效果，但成本很高，而且也难以发现所有有害的案例。

因此Deepmind想要以自动化方法，来快速探索模型失败案例，补充手动测试所忽略的部分。研究人员使用语言模型来生成测试使用案例，并使用分类器测试使用案例中的各种有害行为，该方法找出的有害模型行为有4大类，分别是攻击性语言、资料泄漏、联络信息生成、分配偏误（Distributional Bias）以及对话危害。

攻击性语言指的是仇恨言论、亵渎、色情内容以及带有歧视的回应等，而资料泄漏则是模型可能从训练资料集中，生成受版权保护或个人隐私信息，语言模型甚至有时候会生成联络信息，引导用户不必要地发送电子邮件和打电话给真实存在的人。而且模型也可能存在分配偏误，以不公平的方式评论特定群体，或是可能在长对话中，出现冒犯性语言。

研究人员探索了许多方法来生成多样化的测试使用案例，部分方法可以产生多样化的测试使用案例，有一些则可以生成困难的测试使用案例，而Deepmind综合这些方法，建立高测试覆盖率的红队语言模型，自动发现语言模型的有害行为。

Deepmind将发现的有害输出中，常出现的词语建立成黑名单，避免模型生成包含高风险词语的输出，并且找出攻击性语言所引用的训练数据，在之后迭代模型训练时移除该数据，研究人员也会输入一些范例，来强化模型的特定行为。

研究人员提到，整体而言，以语言模型为基础的红队，可在用户之前发现和修复各种不良的语言模型行为。而Deepmind将红队视为负责任语言模型开发的一部分，加上其他工具共同发现和减轻语言模型存在的危害，未来Deepmind也会将这个方法，用于探索各种机器学习系统更广泛的有害行为。