总的来说,在竞选中,1300万邮件列表名单中将近三分之一的名单、大约7500万美元的捐款都是由于这样的A/B测试提高了网站的表现。A/B测试即网站把一个广告或内容的不同版本分发给一定量的几组随机用户,然后用测试结果来决定用户最终将会看到哪个版本的内容。
更令人惊讶的是,奥巴马团队发现,与纯文本信息相比,奥巴马在集会上煽动群众的视频点击率要低得多。考虑到奥巴马作为演说家的才能着实不一般,这种差异该怎么解释啊?团队并不知道,他们也并不需要知道。数据告诉他们应该在竞选网站上发布哪些内容,即使没有告诉他们原因,他们也照做不误。结果很好:更多的点击、更多的捐款、可能更多的选票。
A/B测试已经成为一种常见的实践:谷歌的搜索结果是A/B测试的结果;Netflix上电影的布局来自A/B测试;甚至《纽约时报》使用的一些标题也是A/B测试的结果……2014年至2016年,必应的软件工程师进行了2.12万次A/B测试,其中三分之一的测试给服务带来变化。
A/B测试有效果,甚至不需要懂它为什么有效。为什么在亚马逊上,如果笑容灿烂的女性图片在网页左边的话,该广告会提高销量呢?我们可以制造一个理论,但我们仍然建议针对下一个广告的位置进行A/B测试。奥巴马的黑白照片吸引了更多点击,并不意味着他的对手约翰·麦凯恩(John McCain)也应该弃用他的彩色照片。亚马逊为户外烧烤架进行推广活动时,使用蓝色背景而不是绿色背景,这让我们没有理由认为它有可能会适用于室内烧烤。
事实上,影响人们偏好的因素完全有可能是微观的、短暂的。也许50岁以上的男性更喜欢模特在左边的广告,但前提是广告的标题很有趣,而来自底特律的女性在两天阴沉沉的天气之后终于呼吸到灿烂的阳光,她们这会儿更喜欢模特在右边的广告。也许有些人刚看完对比度强烈的视频,他们现在更喜欢黑白照片,而其他人则可能因为洋基队刚输掉一场比赛而更喜欢彩色的版本。也许会出现一些能够归纳的理论,也许不能,我们不知道。原因可能和世界本身一样千差万别。
我们从小就相信,世界的真相和现实是由一些不可改变的规律来表达的。学习规律,你就能做出预测。发现新的规律,你就能预测更多的事情。如果有人想知道你是如何做出预测的,你可以向他们展示你所掌握的规律和数据。但是在A/B测试中,我们通常没有心理框架来解释为什么一个版本的广告比另一个版本更好。
想想扔沙滩球。你认为球将向你扔的方向呈抛物线运动,因为我们的心理模型——我们思考事物相互作用的一套规则——考虑了重力和动能。如果球向另一个方向运动了,你也不会认为模型错了,相反,你会认为你没有考虑到一些因素:也许你手滑了一下。
这正是我们在A/B测试中不需要做的事情。我们不需要知道为什么一张黑白照片和一个“了解更多”按钮会增加竞选捐款。如果我们发现民主党人的竞选广告经验对他/她的共和党对手不起作用——他们很可能确实不会起作用——那也没关系,因为再做一次A/B测试就好,A/B很便宜。
A/B测试只是一个例子,它在不知不觉中向我们表明:原理、规律和归纳并不像我们想象的那么重要。也许,只是也许,当我们无法处理现实的细枝末节时,我们才会用到原理。
复杂性的有效性
我们刚刚看了两个基于计算机的技术案例,它们完全不同:一个是编程技术(机器学习),另一个是全球性的空间(互联网),我们在互联网遇到更多的人,欣赏他们对意义和创造力的表达。当然,这些技术通常是相互交织的:机器学习需要使用互联网大规模收集信息,越来越多基于互联网的服务同时使用、喂养机器学习。
这两种技术至少有三个共同点:巨大性、联系性、复杂性,这三个共同点一直在教导我们世界是如何运行的。
巨大性——即它们的规模——与我们参观世界上最大的麻绳球故乡或想象把世界上所有的土豆都堆在一起时完全不同。巨大性的重要性在于机器学习和互联网能达到的细节水平。这两种技术都依赖于细节和独特性,而不是通过归纳或压制“边缘”信息和思想来摆脱细节。
联系性意味着,这两种技术所包含的各个部分可以相互影响,而无需顾虑物理距离造成的障碍。联系性对这两种技术至关重要:只能连接两个部分、一次只能连接一对的网络可不能叫做互联网,只能叫做旧的电话系统。我们新技术的联系性是规模巨大的、多途径的、无距离的,也是必不可少的。
机器学习和互联网的巨大性和联系性导致了它们的复杂性。规模巨大的碎片之间的联系有时会导致一连串的事件,而这些事件的结局可能与它们开始的地方相去甚远。微小的差异可能导致这些系统出现意想不到的巨大转折。
我们不是因为这些技术的巨大性、联系性、复杂性而使用这些技术,我们使用它们是因为它们有效。我们利用这些技术的成功——而不是技术本身——向我们展示了世界比我们想象的更加复杂和混乱,这反过来鼓励我们探索新的方法和策略,挑战我们对理解和解释的本质和重要性的假设,并最终引导我们对世界有一个新的认识。
译者:喜汤
本文来自: 36氪









