代码人生

在机器学习过程中分析并防止无意识的偏见

代码人生 http://www.she9.com 2018-08-24 14:58 出处:网络 编辑:@技术狂热粉
深度学习算法被越来越多地用于做出影响生活的决定,比如在雇佣和解雇员工以及在刑事司法系统中。 机器学习实际上可以放大偏见。研究人员发现,烹饪时67%的图像是女性,但算法将84%的厨师标记为女性。 Pro Publica发现,对于白人被告(24%),黑人被告的假阳性率几乎是白人被告的两倍(错误率为45%)。 Buolamwini和Gebru在他们的研究中发现,ML分类器对男性比对女性更有效,对浅色皮肤的人比深色皮肤的人效果更好。 像1967年的《年龄歧视与就业法案》和《平等信贷机会法案》这样的法规虽不完美,但总比没有任何保护要好。

本文基于Rachel Thomas在QCon大会上的主题演讲“分析和防止机器学习中的无意识偏见”。

Thomas讨论了机器学习中关于偏见的三个案例研究,它的来源,以及如何避免它。

案例研究1:雇佣、解雇和刑事司法系统软件


深度学习算法被越来越多地用于做出影响生活的决定,比如在雇佣和解雇员工以及在刑事司法系统中。编码偏差给决策过程带来了陷阱和风险。

Pro Publica在2016年调查了COMPAS惯犯算法,该算法用于预测囚犯或被指控的罪犯在获释后会犯下更多罪行的可能性。该算法用于保释、量刑和假释的确定。Pro Publica发现,黑人被告(错误率为45%)的假阳性率(被标记为“高风险”,但没有再次犯罪)是白人被告(24%)的两倍。


在这个算法中,种族不是一个明确的变量,但是种族和性别隐藏在很多其他变量中,比如我们生活的地方,我们的社会网络,我们的教育。即使有意识地不去看种族或性别,也不能保证没有偏见——假设失明不起作用。尽管人们怀疑COMPAS的准确性,但威斯康星州最高法院去年支持使用它。托马斯认为,它仍然在使用,这是很可怕的。

重要的是要有一个好的基线来了解什么是好的性能,并帮助表明一个更简单的模型可能更高效。仅仅因为某件事很复杂,并不意味着它就有效。人工智能(AI)用于预测警务是一个值得关注的问题。


泰瑟公司去年收购了两家人工智能公司,并向警察部门销售预测软件。该公司拥有美国80%的警用摄像头市场,因此他们拥有大量的视频数据。此外,the Verge今年2月透露,过去6年,新奥尔良警方一直在使用Palantir的预测警务软件,这个绝密项目连市议会成员都不知道。像这样的应用程序值得关注,因为它没有透明性。因为这些公司是私人公司,所以它们不像警察部门那样受州/公共记录法的约束。通常情况下,他们在法庭上受到保护,不必透露自己在做什么。


此外,在现有的警察数据中有很多种族偏见所以这些算法将要学习的数据集从一开始就是有偏见的。


最后,电脑视觉在有色人种身上的应用一再失败。托马斯说,这是一个可怕的组合,事情会出错。

案例研究2:计算机视觉


计算机视觉通常不善于识别有色人种。最臭名昭著的例子来自2015年。谷歌照片,自动标签照片,有用的分类毕业照片和建筑物的图像。它还把黑人称为大猩猩。


2016年,Beauty.AI 网站使用人工智能机器人作为选美比赛的评委。研究发现,浅色皮肤的人被认为比深色皮肤的人更有吸引力。在2017年,使用神经网络为照片创建滤镜的FaceApp,创造了一种能让人的皮肤变亮,并赋予他们更多欧洲特色的热滤镜。瑞秋在推特上展示了一个用户的真实脸,以及这个应用程序创造的一个更火辣的版本。


Thomas谈到了Joy Buolamwini和Timnit Gebru的一篇研究论文,他们评估了来自微软、IBM和Face++(一家中国公司)的几个商业计算机视觉分类器。他们发现,这些分类器在男性身上的效果比在女性身上的效果好,在皮肤白皙的人身上的效果也比皮肤黝黑的人好。有一个相当明显的差距:浅肤色男性的错误率基本为0%,而深肤色女性的错误率在20%到35%之间。Buolamwini和Gebru也通过肤色来分析女性的错误率。错误随着皮肤的黑暗而增加。最黑皮肤的错误率分别为25%和47%。

案例研究3:单词嵌入


Thomas的第三个案例研究是在产品中嵌入这个词,比如谷歌翻译。


举两句话,比如 “She is a doctor. He is a nurse.”。用谷歌翻译把它们翻译成土耳其语,然后再翻译回英语。性别会发生变化,所以现在句子会说: “He is a doctor. She is a nurse.”。土耳其人有一个中性的单数代词,在英语中被翻译成刻板印象。其他有中性单数代词的语言也是如此。有文献记录了各种各样的词汇,翻译的刻板印象认为女人懒惰,女人不快乐,还有更多的描述。


托马斯解释了为什么会这样。计算机和机器学习将图片和文字视为数字。同样的方法也用于语音识别和图像字幕。这些算法的工作方式是,获取一个提供的图像并输出类似于“穿黑衬衫的人在弹吉他”或“穿橙色背心的建筑工人在路上工作”之类的内容。同样的机制会自动建议你回复电子邮件,比如谷歌智能回复——如果有人问起你的假期计划,智能回复会提示你可能想说,“还没有计划”,或者“我刚刚给你发了邮件”。


托马斯讲了一个例子。ai课程“Practical Deep Learning for Coders”。在这个例子中,我们可以提供单词并返回图片。给它一个单词“tench”(一种鱼)和“net”,它就会返回一个网络中的tench的图片。这种方法会涉及到很多单词,但它并没有给我们任何关于单词相似的概念。所以" cat "和"灾变"可能是顺序号但它们之间没有任何语义关系。


更好的方法是将单词表示为向量。词嵌入被表示为高维向量。她举了一个“小猫”、“小狗”和“小鸭”的例子,因为它们都是小动物,所以在太空中可能彼此很近。但是“雪崩”的矢量可能很远,因为没有真正的联系。


有关单词向量的更多信息,请参阅Adrian Colyer的《单词向量的神奇力量》。

Word2Vec


Word2Vec是谷歌发布的一个词嵌入库。斯坦福大学自然语言处理组的Facebook fastText和GloVe也有类似的库。训练这些库需要大量的数据、时间和计算能力,所以这些团队已经完成了这些工作,并发布了供公共使用的库,这很方便。它更容易使用,而且这是一个经过训练的版本。这三个项目的代码都可以在GitHub上找到,Thomas自己的word嵌入工作室也是如此。你可以用Jupyter笔记本运行她的程序,并尝试不同的单词。


“小狗狗”、“小狗狗”、“女王”、“公主”等类似词语的“向量”距离更近。当然,像“名人”、“尘土飞扬”、“小猫”和“飞机”等不相关的词就更遥远了。这个程序使用的是共符号相似度,而不是欧几里德距离,因为你不想在高维空间中使用欧几里德距离。


您可以使用这个解决方案来获取关于语言的信息。你也可以找到10个最接近特定目标词的单词。例如,如果你查找与“游泳”最接近的单词,你会得到像“游泳”、“划船”、“跳水”、“排球”、“体操”和“游泳池”这样的单词。单词类比也很有用。他们捕捉到这样的信息:“西班牙之于马德里,就像意大利之于罗马”。然而,这里有很多偏见的机会。例如,“男人”和“天才”之间的距离远小于“女人”和“天才”之间的距离。


研究人员更系统地研究了一篮子单词。另一个篮子是昆虫:蝗虫、蜘蛛、臭虫、蛆等等。他们有一篮子愉快的词汇(健康、爱、和平、欢乐等)和一篮子不愉快的词汇(虐待、污秽、谋杀、死亡等)。研究人员观察了这些不同词汇篮子之间的距离,发现花更接近快乐词汇,昆虫更接近不快乐词汇。


到目前为止,这一切似乎都是合理的,但随后研究人员研究了刻板印象中的黑人名字和刻板印象中的白人名字。他们发现黑人的名字更接近不愉快的词,白人的名字更接近愉快的词,这是一种偏见。他们在一组词中发现了许多种族和性别偏见,这产生了类似的比喻,如“父亲之于医生,母亲之于护士”,“男人之于电脑程序员,正如女人之于家庭主妇”。这些都是Word2Vec和GloVe的类比。


Thomas谈到了另一个关于餐馆评论系统中存在偏见的例子,该系统对墨西哥餐馆的排名较低,因为“墨西哥”这个词含有负面含义。这些词嵌入是通过一个巨大的文本语料库来训练的。这些文本包含了很多种族和性别偏见,这就是嵌入这个词是如何在学习语义含义的同时学习这些联想的。

机器学习可以放大偏见


机器学习实际上可以放大偏见。这方面的一个例子在“男性也喜欢购物:使用语料库级别的约束来减少性别偏见的放大”中得到了讨论。研究人员发现,烹饪时67%的图像是女性,但算法将84%的厨师标记为女性。机器学习算法有可能放大我们在现实世界中看到的东西。


Thomas提到了Zeynep Tufekci的研究,他提供了技术和社会交叉的见解。Tufekci在推特上写道:“很多人告诉我,YouTube自动播放的视频最终都是白人至上主义的视频,从各种不同的起点出发,这个数字相当惊人。”例子包括:


“我看了一个吹叶机的视频,之后又看了三个视频,那就是白人至上。”


“我在看一个关于种植园奴隶制起源的学术讨论,下一个视频来自否认大屠杀的人。”


“我和女儿们一起看了一段关于纳尔逊·曼德拉的视频,下一段视频说南非的黑人是真正的种族主义者和罪犯。”


这是可怕的。


Renee DiResta是虚假信息和宣传如何传播的专家,几年前她注意到,如果你加入Facebook上的一个反疫苗团体,该网站还会向你推荐关于天然癌症治疗、化学疗法、平坦地球以及各种反科学团体的团体。这些网络正在做很多工作来促进这种宣传。


Thomas提到了一篇关于失控反馈循环如何在预测警务工作中起作用的研究论文。如果软件或分析预测,在一个地方将会有更多的犯罪,警察可能会派遣更多的官员,而是因为有更多的警察,他们可能更逮捕,这可能会导致我们认为有更多的犯罪,这可能会导致我们发送更多的警察。我们可以很容易地进入这个失控的反馈循环。


Thomas认为我们确实需要考虑模型中包含某些变量的伦理问题。尽管我们可以访问数据,即使这些数据提高了我们的模型的性能,使用它是否合乎道德?这符合我们社会的价值观吗?即使是工程师也需要对他们所从事的工作提出道德问题,并且应该能够回答有关工作的道德问题。我们将会看到越来越少的社会对此的容忍。


iRobot公司的数据科学部主任Angela Bassa说:“这并不是说数据是有偏见的。数据是有偏见的。如果你想使用数据,你需要了解它是如何产生的。

解决词嵌入中的偏见


即使我们在模型开发的早期就消除了偏见,仍然有很多地方存在偏见,我们需要继续关注它。


更有代表性的数据集可以是一种解决方案。Buolamwini和Gebru发现了上面提到的电脑视觉产品中的偏见缺陷,并将具有不同肤色的男性和女性的数据集组合在了一起。这个数据集可以在性别阴影中找到。该网站还提供了他们的学术论文和一个关于他们工作的短片。


Gebru和其他人最近发表了一篇题为“数据集的数据表”的论文。本文提供了用于记录特征和元数据的原型数据表,这些数据表揭示了数据集是如何创建的、如何组成的、进行了什么预处理、需要做什么工作来维护数据集以及任何法律或伦理方面的考虑。理解用于构建模型的数据集非常重要。


托马斯强调,我们的工作是提前考虑意外后果。想想巨魔、骚扰者或独裁政府如何利用我们建立的平台。我们的平台如何被用来进行宣传或虚假信息?当Facebook宣布它将开始建立威胁模型时,许多人问为什么它在过去的14年里没有这样做。


还有一种观点认为,不存储我们不需要的数据,这样就没有人可以获取这些数据。


我们的工作是考虑我们的软件如何在它发生之前被滥用。信息安全领域的文化就是基于此。我们需要开始更多地思考事情会如何出错。

关于AI的问题


Thomas列举了一些关于AI的问题:


数据有什么偏差?所有的数据都有一些偏差,我们需要了解它是什么以及数据是如何创建的。


代码和数据可以审计吗?他们是开源的吗?当使用闭源专有算法来决定医疗和刑事司法领域的事情,以及谁被雇佣或解雇时,存在风险。


不同子组的错误率是多少?如果我们没有代表性的数据集,我们可能不会注意到我们的算法在某些子组上的表现很差。我们的样本大小是否足够大,可以容纳您数据集中的所有子组?检查这个很重要,就像propublica在研究种族的累犯算法时所做的那样。


基于规则的简单替代方案的准确性如何?有一个好的基线是非常重要的,这应该是我们处理问题的第一步,因为如果有人问95%准确率是否良好,我们需要一个答案。正确的答案取决于上下文。这就提出了累加算法,它并不比两个变量的线性分类器更有效。知道这个简单的替代方案是什么很好。


有什么程序处理上诉或错误?我们需要一个对影响人们生活的事物进行人类诉求的过程。作为工程师,我们在公司内部提出这些问题的权力相对更大。


构建它的团队有多多样化?构建我们技术的团队应该代表那些将受到它影响的人,而我们所有人都将受到它的影响。


研究表明,多样化的团队表现得更好,相信我们是精英管理的团队实际上会增加偏见。持续的面试需要时间和精力。这篇文章的一个很好的参考文献是朱莉娅·埃文斯(Julia Evans)的博客文章《改变小文化》(Making small culture changes)。


先进的技术不能代替好的政策。托马斯谈到快。全世界的人工智能学生都在把深度学习应用到社会问题上,比如拯救雨林或者改善帕金森病人的护理。


像1967年的《年龄歧视与就业法案》和《平等信贷机会法案》等人工智能法规都是相关的。这些并不完美,但总比没有任何保护好,因为我们真的需要考虑作为一个社会,我们想要保护什么权利。


托马斯总结她的谈话说,你永远无法完成检查偏见。我们可以采取一些措施来解决问题,但偏见可能会从很多地方渗入。没有什么清单能保证偏见已经消失,我们不再需要担心。这是我们必须继续寻找的东西。

关于作者


Srini Penchikala目前在德克萨斯州奥斯汀担任高级软件架构师。Penchikala拥有超过22年的软件架构、设计和开发经验。他还是InfoQ AI、ML &数据工程社区的首席编辑,该社区最近出版了他与Apache Spark合作的迷你书《大数据处理》。他在InfoQ、TheServerSide、O 'Reilly Network (OnJava)、DevX的Java专区、Java.net和JavaWorld等网站上发表了关于软件架构、安全、风险管理、NoSQL和大数据的文章。


请关注公众号:程序你好
0

精彩评论

暂无评论...
验证码 换一张
取 消