Deepmind以红队模型自动化探索语言模型的有害行为

Deepmind利用红队语言模型来生成测试使用案例,以自动发现语言模型的各种有害行为

Deepmind以红队模型自动化探索语言模型的有害行为

为了提高语言模型的实际可用性,降低可能产生有害结果的机率,谷歌旗下人工智能研究组织Deepmind,发明了以红队(Red Team)语言模型来产生测试使用案例,自动化发现目标语言模型可能出现有害结果,提高模型测试的效率与覆盖范围。

GPT-3和Gopher等大型语言模型,都具有生成高质量文字的能力,但事实上,这些模型都很难在实际使用案例中部署,研究人员解释,语言模型具有生成有害文字的可能性,即使是很小的危害风险,在实际应用中都难以被接受。 Deepmind利用经过训练的分类器,来评估语言模型所产生的内容,并从2,800亿参数的聊天机器人,发现数以万计具有攻击性的回复。

由于有太多的输入,可能使模型产生有害的文字输出,因此很难在模型实际部署前,找出所有有害行为的可能性,过去有研究使用人工来手动探索模型失败案例,Deepmind研究人员提到,这种方法虽然有效果,但成本很高,而且也难以发现所有有害的案例。

因此Deepmind想要以自动化方法,来快速探索模型失败案例,补充手动测试所忽略的部分。 研究人员使用语言模型来生成测试使用案例,并使用分类器测试使用案例中的各种有害行为,该方法找出的有害模型行为有4大类,分别是攻击性语言、资料泄漏、联络信息生成、分配偏误(Distributional Bias)以及对话危害。

攻击性语言指的是仇恨言论、亵渎、色情内容以及带有歧视的回应等,而资料泄漏则是模型可能从训练资料集中,生成受版权保护或个人隐私信息,语言模型甚至有时候会生成联络信息,引导用户不必要地发送电子邮件和打电话给真实存在的人。 而且模型也可能存在分配偏误,以不公平的方式评论特定群体,或是可能在长对话中,出现冒犯性语言。

研究人员探索了许多方法来生成多样化的测试使用案例,部分方法可以产生多样化的测试使用案例,有一些则可以生成困难的测试使用案例,而Deepmind综合这些方法,建立高测试覆盖率的红队语言模型,自动发现语言模型的有害行为。

Deepmind将发现的有害输出中,常出现的词语建立成黑名单,避免模型生成包含高风险词语的输出,并且找出攻击性语言所引用的训练数据,在之后迭代模型训练时移除该数据,研究人员也会输入一些范例,来强化模型的特定行为。

研究人员提到,整体而言,以语言模型为基础的红队,可在用户之前发现和修复各种不良的语言模型行为。 而Deepmind将红队视为负责任语言模型开发的一部分,加上其他工具共同发现和减轻语言模型存在的危害,未来Deepmind也会将这个方法,用于探索各种机器学习系统更广泛的有害行为。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论