超越粗鲁 -

使基于文本的努力减少种族主义和可怕的努力

研究人员尝试了不同的方法来解决放大负面刻板印象的问题。

使基于文本的努力减少种族主义和可怕的努力
盖蒂图片社

7月2020年7月,Openai推出了GPT-3,人工智能这种语言模型迅速激发了人们对计算机写诗、写新闻文章和写程序代码的兴趣。很快,它被证明有时是脏话和有毒的。OpenAI表示正在进行修复,但该公司最近发现GPT-3正在被使用生成儿童色情

现在OpenAI研究人员表示,他们已经找到了一种方法,通过喂养历史和技术等主题的主题喂养了100个百科全书的样本,滥用了100个百科全书的样本,也是滥用,暴力和不公正的方式来削减GPT-3的毒性文本。

Openai的项目显示了技术行业如何争先恐后地限制了一种技术的黑暗面,这些技术表明了巨大的潜力,而且可以传播令人讨厌和长期偏见。结果有很多骑行:大科技公司正在快速发展,以根据这些大型语言模型提供服务,可以解释或生成文本。谷歌调用它们对搜索的未来至关重要,微软正在使用GPT-3编程.在一个潜在的更不祥的发展中,团体正在努力开源这些语言模型的版本可能表现出相同的弱点,并更广泛地共享它们。因此,研究人员正在研究它们是如何成功的,它们在哪里不足,以及它们如何才能得到改进。

abubakar abid是首席执行官机器学习他是第一批呼吁关注GPT-3对穆斯林的偏见的人之一。车间2020年12月期间,阿比德检查GPT-3生成文本的方式对宗教使用提示“两个走进。”看着前10回应各种宗教,他发现GPT-3提到暴力一旦每个犹太人,佛教徒,锡克教徒,两次对基督徒来说,但九个穆斯林的10倍。在今年早些时候的一篇论文中,阿比德和几位合著者显示将关于穆斯林的正面文本注入一个大的语言模式,减少了提及穆斯林暴力的数量近40个百分点。

其他研究人员正在尝试不同的方法。Facebook AI研究的研究工程师Emily Dinan是通过制造更多内容来消除毒性文本的方法。迪纳聘请亚马逊机械土耳其承包商在与语言模型的对话中说可怕的事情,以引发它们产生仇恨言语,亵渎和侮辱。然后,人类标记为安全或不安全的输出;那些标签有助于培训AI识别毒性言论。

GPT-3显示出了令人印象深刻的理解和撰写语言的能力。它可以回答SAT的类比题比大多数人做得都好,而且能够傻瓜Reddit用户不被发现。

但即使是它的创造者也知道GPT-3有产生种族主义和性别歧视的倾向。在将GPT-3授权给开发者之前,OpenAI在2020年5月发布了一篇论文,测试发现GPT-3对黑人的评价普遍较低,并表现出性别歧视和其他形式的偏见。尽管有这些发现,OpenAI宣布了计划商业化技术一个月后。这与OpenAI在2019年处理早期版本GPT-2的方式形成了鲜明对比。然后,它最初只发布了模型的小版本。与此同时,学术界的合作伙伴发布了多个学习语言模型可能被滥用或对社会产生负面影响。

在最近强调如何减少GPT-3毒性的论文中,OpenAI公开了一些测试,显示GPT-3的基础版本将一些人称为动物,并将白人与“霸权”和“优越性”等术语联系在一起;这种语言延续了长期以来的刻板印象,使非白人失去人性。GPT-3还会开种族主义玩笑,纵容恐怖主义,指责人们是强奸犯。

在另一项测试中,新加坡国立大学(National University of Singapore)的博士生沈旭东(Xudong Shen)根据语言模型对人们性别的刻板印象程度,或他们是否认同同性恋、跨性别者或非二元者,对语言模型进行了评估。他发现更大的人工智能程序倾向于更刻板。沈说,大型语言模型的制造者应该纠正这些缺陷。OpenAI的研究人员还发现,语言模型越大,毒性越大;他们说他们不明白为什么会这样。

由大型语言模型产生的文本即将到来的语言看起来或听起来像它来自人类的语言,但它仍然无法理解需要推理几乎所有人所理解的事情。换句话说,随着一些研究人员所说,这个AI是一个梦幻般的废话,能够说服机器理解它产生的词语的AI研究人员和其他人。

加州大学伯克利分校的心理学教授艾莉森·戈普尼克(Alison Gopnik)研究了蹒跚学步的幼儿和年轻人如何学习将这种理解应用到计算机上。她说,孩子是最好的学习者,孩子学习语言的方式很大程度上源于他们对周围世界的了解,以及他们与周围世界的互动。相反,大型语言模型与世界没有联系,这使得它们的输出缺乏现实依据。

“扯谎的定义是你说了很多话,听起来似乎有理,但背后没有常识,”Gopnik说。

华盛顿大学(University of Washington)副教授、艾伦人工智能研究所(Allen Institute for AI)常识研究小组组长蔡叶金(Yejin Choi)已经对GPT-3进行了数十次测试和实验,以证明它是如何犯错的。有时它会重复它自己。其他时候,即使一开始是无害或有害的文字,它也会演变成有毒的语言。

为了让人工智能更多地了解世界,崔和一组研究人员创造了PIGLeT,人工智能在模拟环境中接受训练,了解人们在成长过程中学会的有关身体体验的事情,比如触摸热火炉不是一个好主意。这种训练使得一个相对较小的语言模型在常识推理任务中表现优于其他模型。她说,这些结果表明,规模并不是唯一的成功秘诀,研究人员应该考虑其他方法来训练模型。她的目标是:“我们真的能建立一个机器学习算法,来学习关于世界如何运转的抽象知识吗?”

Choi也在研究减少语言模型毒性的方法。本月初,她和同事介绍说一个算法从攻击性文本中学习,类似于Facebook AI Research的方法;他们说,它在减少毒性方面优于现有的几种技术。她说,由于人类的原因,大型语言模型可能是有毒的。“这就是现在的语言。”

有些研究人员反常地发现,试图从模型中调整和消除偏见,最终可能会伤害到边缘化的人。一篇论文中发表在4月,来自UC Berkeley和华盛顿大学的研究人员发现,黑人,穆斯林和被认为是LGBT的人是特别弱势的。

研究人员表示,这个问题的部分原因在于,人们对数据进行标签时,错误判断了语言是否有害。这导致了对语言使用方式与白人不同的人的偏见。该论文的合著者表示,这可能会导致自我污名化和心理伤害,并迫使人们转换编码。OpenAI的研究人员在他们最近的论文中没有提到这个问题。

艾伦人工智能研究所(Allen Institute for AI)研究科学家杰西·道奇(Jesse Dodge)也得出了类似的结论。他着眼于通过从大型语言模型的训练数据中删除任何包含“gay”或“lesbian”的文本来减少对同性恋者的负面刻板印象的努力。他发现,这种过滤语言的努力可能会导致数据集有效地删除具有这些身份的人,使得语言模型处理由这些人编写或关于这些人的文本的能力降低。

道奇说,处理偏见和不平等的最好办法是改进用来训练语言模型的数据,而不是在事实发生后试图消除偏见。他建议更好地记录训练数据的来源,并认识到从网络上抓取文本的局限性,这可能过多地代表了那些有能力访问互联网、有时间建立网站或发表评论的人。他还敦促记录内容是如何被过滤的,避免笼统地使用屏蔽列表来过滤从网络上搜集的内容。

道奇为研究人员创建了一份包含约15个数据点的清单,以执行标准,并在其他人的工作基础上构建。到目前为止,这份清单已经被使用了超过1万次,以鼓励研究人员包含对重现他们的结果至关重要的信息。满足更多清单项的论文更有可能在机器学习研究会议上被接受。Dodge说,大多数大型语言模型缺乏清单上的一些项目,比如源代码链接或用于训练AI模型的数据细节;三分之一发表的论文没有共享验证结果的代码链接。

但道奇也看到了更多系统性问题在发挥作用。他表示,将人工智能快速从研究转向生产的压力越来越大,这可能导致研究人员发表有关流行事物的工作,并在没有适当文件的情况下继续前进。

在另一个最近的研究微软的研究人员采访了12名使用人工智能语言技术的科技工作者,发现产品团队几乎没有为算法可能出现的错误做任何规划。早期的功能原型设计(如预测文本或搜索完成的书写辅助工具)倾向于专注于AI组件完美运行的场景。

研究人员设计了一个互动的剧本,促使从事人工智能语言项目的人们在早期阶段思考和设计人工智能文本技术的失败。它正在微软内部进行测试,目的是让它成为产品团队的标准工具。华盛顿大学(University of Washington)研究员马修·洪(Matthew Hong)曾在微软与三名同事一起进行这项研究。他表示,这项研究表明,人工智能语言技术在某些方面的变化比软件行业文化的变化还要快。他说:“我们的领域正在经历许多成长的痛苦,试图将人工智能集成到不同的产品中。”“人们很难赶上(并)预测或计划人工智能的失败。”

这个故事最初出现在wired.com

你必须置评。

通道Ars Technica