为了从输入走到输出,图像要经过几次转换。他说:“图像首先要转换成非常低级的表征,只是枚举边的类型和位置。”接下来可能是那些边线的边角和交叉点,再就是形成形状的边线的模式。几个圆圈可能最后会成为一只眼睛。Taylor解释说:“在特征方面每一层的表示都是不同程度的抽象,这样一直到你得到非常高级的特征,那些开始看起来代表着身份的东西——比如发型和下巴轮廓——或者像面部匀称性这样的属性。”
这整个过程是怎么发生的呢?数字。数量多到令人难以置信的数字。比方说,一套人脸识别系统会按照像素级别来分析一张图像。(百万像素级摄像头使用1000x1000像素的网格,每一个像素都有红绿蓝三基色的值,每个值的范围在0到255之间,所以这里面的信息量有多大可想而知)系统通过这些表示层分析像素,构建抽象,直到最后自己做出识别。
不过请等一下,尽管这张脸很显然是Christopher Plummer,但机器却以为它是Margaret Trudeau。Taylor说:“模型一开始的时候表现非常糟糕。我们可以从给它看图片然后问谁在里面开始,但在经过训练或者完成任何学习之前,机器会一直给出错误的答案。”这是因为在算法见效之前,网络上人工神经元之间的权重是随机设定的。
经过一个逐步试错的过程之后,系统调整了不同层之间的连接的强度,所以当它看到另一幅Christopher Plummer的图片时,它表现得稍微好点了。小的调整稍微改善了一下连接,把错误率稍微降低了一点,直到最后系统可以用很高的准确率识别出脸部。正是因为这项技术,Facebook会在一张图片中有你时向你发出提醒,哪怕你还没有被打上标签。Taylor说:“深度学习很酷的一点是,我们不需要在有人说‘哦,这些特征对识别特定的脸很有用’的情况下析取出一切。这都是自动发生的,这就是它的神奇之处。”
带偏见的数据
这里有个小花招:往Google Images里面输入CEO你会变出一堆几乎难以分辨的白人男性面孔。如果你是在加拿大,你会看到剩下起到点缀作用的大部分都是白人女性,以及少数有色人种,还有神奇女侠的盖尔·加朵。去年在加州举行的一场机器学习会议上,一名演讲者必须在一堆穿着深色西装的白人男性中向下翻滚了很久之后才找到了第一位女侠。CEO芭比。
数据对于AI系统的运作必不可少。系统越复杂——神经网络的层数就越多,要想翻译语音或者识别面部或者计算某人拖欠贷款的可能性——需要收集的数据就越多。程序员可能要依靠图库或者危机百科条目、归档的新闻文章或者音频记录。他们可能会看大学招生的历史和假释记录。它们想要临床研究和信用评分。McGill计算机科学学院的Doina Precup教授说:“数据非常非常重要,(数据越多,)解决方案越好。”
但并不是每个人都能够公平地得到那些数据的表示。有时候,这是由来已久的排斥的结果:2017年,女性在财富500强中的占比仅为6.4%,但这已经比上一年的数字增长了52%。直到1997年之前加拿大卫生部都没有明确要求女性纳入到临床试验里面;据中风基金会的《2018心脏报告》,2/3的心脏病临床研究仍然以男性为主,这帮助解释了为什么最近的一项研究发现超过一半女性并没有那些心脏病的症状。既然我们知道女性被排除在那些高层和试验之外,说她们的缺席会令任何用这些数据训练的系统的结果产生扭曲就是安全的假设了。
有时候,就算有充足的数据,那些建立训练集的人仍然不会采取审慎的举措去保证多样性,这导致了人脸识别程序在面对不同人群时会出现差异很大的错误率。其结果就是所谓的取样偏差,这是由于缺乏代表性数据导致的。算法优化是为了尽可能少犯错;其目标是降低错误数。但是数据的构成决定了算法将注意力引导到哪里去。
多伦多大学计算机科学教授Toniann Pitassi的研究重点是机器学习的公平性,他提供了一个招生计划的例子。Pitassi说:“比方说你有5%的黑人申请,如果这所大学95%的申请都是白人的话,则几乎你所有的数据都将是白人的。在决定谁应该进入大学这件事情上算法试图在整体上考虑将自己的错误最小化。但是它不会投入太多的努力到那5%上面,因为这对总体错误率的影响很小。”
犹他大学计算学院的Suresh Venkatasubramanian教授解释说:“很多算法是通过看在训练数据中自己得到了多少正确答案来进行训练的。这很好,但如果你只是把答案累计的话,就会有一部分小群体总是会有问题。这么做对你的伤害不太大,但是因为你系统性的对那一小群人的全体犯错,错误决定的影响就要比你的错误分散到多个群体的影响严重多了。”
正是因为这个原因,Buolamwini人肉干发现IBM的脸部识别技术准确率为87.9%。当一个系统识别浅肤色女性的准确率为92.9%,识别浅肤色男性的准确率为99.7%时,黑人女性的识别率仅为35%就无关紧要了。微软的算法也一样,她发现其预测性别的准确率为93.7%。但Buolamwini发现,那些性别错误中几乎有同样的比例——93.6%是发生在深肤色受试者的脸上。但是算法并不需要关心这个。
垃圾进,垃圾出
在跟人工智能专家花费了足够多的时间进行了足够深入的对话之后,到了一定时候,他们都会得出一条公理:垃圾进,垃圾出。绕开样本偏差确保系统基于丰富的均衡数据而进行训练是有可能的,但如果数据受到我们社会的偏见和歧视困扰的话,则算法也好不到哪里去。Precup说:“我们想要的是忠于现实的数据。”而当现实存在偏见时,“算法别无选择,只有反映那种偏见。算法就是这么做出来的。”
偶尔,所反映出来的偏见在预测性方面几乎是很滑稽的。Web搜索,聊天机器人,给图像加字幕程序,机器翻译等日益依赖于一种叫做词嵌入的技术。这是通过把单词之间的关系变成数值,然后让系统已数学的方式表示语言的社会背景。通过这项技术,AI系统了解到了巴黎和法国之间的关系,以及东京与日本之间的关系;它能觉察到东京与巴黎之间的不同联系。2016年,波士顿大学和微软研究院的研究人员把来自于Google News文字的超过300万个英语单词提供给一个算法,他们先是提供一段使用得最多的话,然后让算法填空。他们问道:“男人之于计算机程序员正如女人之于什么?”机器在那堆单词里面折腾了半天之后给出的答案是家庭主妇。
这些统计关联就是所谓的隐含偏差:这就是为什么一所人工智能研究机构的图像收集将烹饪与女性招聘关联起来的可能性会增加68%的原因,这也解释了Google Translate在使用性别中立的代词的语言时为什么会遇到麻烦。土耳其语的句子不会指明医生是男性还是女性,但是英语翻译会假定,如果屋子里有个医生的话,那他一定是个男的。这种推测延伸到了网上到处跟踪我们的广告身上。2015年,研究人员发现,在许诺薪水高于20万美元的Google工作岗位广告里面,男性出现的机率比女性高6倍。
Kathryn Hume说,系统的威力在于其“识别性别与职业之间的关联的能力。其不好之处在于系统背后是没有目的性的——只是由数学来选择关联。它并不知道这是个敏感问题。”这种技术存在着未来主义和陈旧作风的冲突。AI的演进速度要比它要处理的数据的演进快得多,所以这注定了它不仅折射和反映出过去的偏见,而且还延长并加强了它们。
因此,当判断被移交给机器之后,那些曾经是包括警察、法院在内的机构系统性歧视目标的群体并不能得到更好的对待。多伦多大学犯罪学和社会法学研究中心的Kelly Hannah-Moffat教授说:“那种认为可以制造出公平客观的AI工具的看法是有问题的,因为你会把犯罪发生的背景简化成是或否的二元性。我们都知道种族跟盘查政策、梳理以及更严格的警方检查相关,所以如果你正在研究跟警察的接触或者之前的逮捕率时,其实你看的已经是一个带偏见的变量。”一旦那个变量被纳入到机器学习系统里面,偏见就被嵌入到算法评估之中。
两年前,美国调查新闻机构ProPublica仔细审查了一个使用广泛的程序,其名字叫做COMPAS,这个程序被用来确定被告再犯的风险。记着收集了超过7000名在佛罗里达州被捕的人的分数,然后评估其中有多少人在随后2年实施了犯罪——使用的是跟COMPAS一样的基准。他们发现,算法存在很大的缺陷:黑人被告被错误地标记为存在再犯的高风险的机率是实际的2倍多。相反,被标记为低风险的白人被告在随后被指控犯罪的情况是其估计的2倍。
美国已经有5个州靠COMPAS来进行刑事司法判决,其他辖区也已经有其他的风险评估程序就位。加拿大因为仍然沿用过时的体系,所以还没有受到有问题的算法之影响。
实现算法公平
要想实现算法的公平性,程序员可以简单地摒弃种族和性别这样的属性。但根深蒂固的历史关联——那种将女性与厨房关联,或者将一部分人口跟特定邮编关联的做法,使得系统很容易就能弄清楚这些属性,哪怕这些属性已经被移除了。所以计算机科学家弄出的这种解决方案令人想到管弦乐世界的盲听:为了掩饰某人的身份,他们竖起了一道幕布。
深度学习先驱Yoshua Bengio说:“假设我们考虑到种族是歧视的因素之一,如果我们在数据里面看到这个的话,我们就可以衡量它。”可以往神经网络里面添加另一个约束,强迫它忽视有关种族的信息,不管这种信息是不是隐含的(比如邮编)。Bengio说,这种方案无法对这些受保护的特征建立完全的不敏感性,但是还是做了相当好的工作。
其实现在已经有越来越多的研究在设法用算法性解决方案来解决算法性偏见问题。其中反设事实可能是手段之一——让算法分析如果女性获得贷款的话会发生什么,而不是简单地去梳理过去发生的事情。这可能意味着要给算法它增加约束,确保它在犯错时这些错误是均匀分布到每一种代表群体里面的。给算法增加不同的约束来降低阈值是有可能的,比方说对特定群体的大学录取率,从而保证达到代表性的百分比——姑且称之为算法性平权行动。
尽管如此,算法干预也只能到此为止;解决偏见还需要训练机器的程序员的多样性。McGill教授Doina Precup说:“这甚至还不是说意图不好,只是那些没有来自特定背景的人完全就没意识到那种背景会是什么样的,也不了解这会如何影响着一切。”如果数据集汇编进来的时候Joy Buolamwini在场的话,她当场就能发现那尖端的脸部识别技术在黑肤色的表现太过糟糕。《压迫的算法》作者Safiya Noble补充说:“我们对种族主义和性别歧视的理解不够深入时可能会出现的风险远不止是公关混乱以及偶尔的新闻头条。这不仅意味着公司失去了更深入更多元化的消费者参与的可能性,而且有可能他们也没有意识到自己的产品和服务已经成为了会对社会造成破坏的权力体系的一部分。”
对算法性偏见认知的增强不仅是干预我们AI系统开发方式的一个机会。这也是一个质询的好机会,质询为什么我们创建的数据会像这样,质询还有哪些偏见在继续塑造一个允许这些模式在数据中出现的社会。毕竟,算法只是一组指令罢了。Bengio强调:“我们使用的算法是中立的。不中立的是(神经)网络,只要用带偏见的数据对它进行过训练之后,涡轮就不再中立了。我们充满着各种偏见。”
这正是为什么我们要非常非常当心自己收集的数据的原因。今年3月,微软领导的一群研究人员参加在旧金山举行的一场会议时提出了一个可能的解决方案。因为识别数据集创建方式缺乏标准,也没有警示可能存在偏见的警告标签,他们提出做一张包含有公共数据集和商用软件的数据表。文档将明确说明训练数据集是什么时候在哪里以及如何汇编出来的,并且提供使用的受试者的人口统计信息,提供必要的信息给研究人员和组织,从而确定如何利用数据集以及在和背景下加以使用。
在欧洲,已经出台了一部全新的隐私法律,General Data Protection Regulation(GDPR,通用数据保护条例)规定要限制对敏感数据的手机,要求对算法决策进行解释,并且保护个人不会被机器唯一来决定。
当然,还有一种优雅简洁且公平公正的解决方案:获得更好的数据。这就是Joy Buolamwin的发现指责IBM的人脸识别系统在性别和肤色平衡上做的不够之后发生的事情。这家公司目前正在提高用于训练的图片集的广泛性。后来拿瑞典、芬兰、南非、塞内加尔等过议员的照片去测试这套新系统时,算法执行得很好,这一点并不奇怪。可喜的是对所有人都是。虽然不够完美:深肤色的女性错误率依然是最高的,3.46%。但这比之前已经改进了10倍——这已经远远足以证明改变是有可能的,只要你把它当作优先事项。哪怕是不彻底的智能机器都知道这一点。
本文来自: 36氪









