Skip to content

第 14 章 行正道之事

用世间的美、丑与残酷喂养 AI 系统,却期望它只反映其中的美——这是一种幻想。

——Vinay Uday Prabhu 与 Abeba Birhane,《Large Datasets: A Pyrrhic Win for Computer Vision?》(2020)

本书的最后一章,让我们退后一步。全书我们考察了形形色色的数据系统架构,权衡其优劣,探索了用以构建可靠、可扩展、可维护应用的种种技术。但讨论中还有一个根本的部分被我们搁置一旁——现在该把它补上。

每个系统都是为某种目的而建,我们采取的每个行动都既有预期后果,也有意料之外的后果。目的可能简单到只是赚钱,但后果可能十分深远。我们这些构建系统的工程师,有责任仔细斟酌这些后果,确保我们的决策不会造成伤害。

我们谈论数据时把它当作一种抽象之物,但要记住:许多数据集所关乎的是人——他们的行为、他们的兴趣、他们的身份。我们必须怀着对人的尊重与关怀来对待这类数据。用户也是人,人的尊严至高无上 [1]。

软件开发日益涉及重要的伦理抉择。已有指南可以帮软件工程师驾驭这些议题,例如 ACM 的伦理与职业行为守则 [2],但它们在实践中很少被讨论、应用与执行。结果是:工程师与产品经理有时会对隐私和产品潜在的负面后果抱以漫不经心的态度 [3, 4]。

技术本身并无好坏之分——重要的是它如何被使用,以及如何影响人。这一点对搜索引擎这样的软件系统同样成立,正如对枪这样的武器一样。伦理责任在我们自己肩上;软件工程师只关注技术、忽视其后果,是不够的。

然而,与计算领域的多数内容不同,伦理学核心的概念在精确含义上并非固定或确定的;它们需要解读,而解读可能带有主观性 [5]。何为"好"、何为"坏"并无清晰定义,计算机行业内对此话题的认真探讨也较为缺乏 [6]。讨论伦理是困难的,但其重要性更不容忽视。这意味着什么?伦理并不是过一份核对清单以确认合规;它是一个参与式、迭代式的反思过程,与受影响者对话展开,并对结果负责 [7]。

预测分析

预测分析是大数据与 AI 之所以让人兴奋的重要原因之一。它也是一个充满伦理困境的领域。用数据分析预测天气,或预测疾病传播,是一回事 [8];预测一名罪犯是否会再次犯案、一名贷款申请人是否会违约、一名保险客户是否会提出昂贵理赔,则是另一回事 [9]。后者会直接影响个人的生活。

当然,支付网络希望防范欺诈交易,银行希望避免坏账,航空公司希望避免劫机,公司希望避免雇用无能或不可信赖的人。从他们的角度看,错失一次商机的代价低,而坏账或问题员工的代价要高得多——所以组织谨慎是可以理解的。如果拿不准,他们更倾向于说"不"。

然而,随着算法决策日益普及,被算法(不论准确与否)打上"高风险"标签的人,可能会承受大量这样的"不"字决定。被系统性地排除在工作、航空旅行、保险、租房、金融服务以及社会生活其他关键方面之外,对个人自由是如此沉重的束缚,以至于这种状态被称作"算法监狱" [10]。在尊重人权的国家,刑事司法体系遵循"无罪推定";而自动化系统则可以系统性地、任意地把一个人排除在社会参与之外,无须任何有罪的证据,亦几乎无申诉之机。

偏见与歧视

由算法做出的决定并不必然比人类做出的更好或更糟。每个人都可能有偏见,哪怕他们主动尝试克服;歧视性做法也可能在文化中被制度化。人们曾期望:以数据而非人的主观直觉为决策依据,可能更公平,并能让那些在传统体制中常被忽视或不公对待的人获得更好的机会 [11]。

当我们开发预测分析与 AI 系统时,我们不只是在用软件指定规则、自动化人类决策;我们更是把规则本身交给系统从数据中推断出来。然而,这些系统学到的模式是不透明的:即便数据表明一个相关性,我们也未必知其所以然。如果输入算法的数据带有系统性偏见,系统极可能在其输出中习得并放大这种偏见 [12]。

许多国家有反歧视法律,禁止依据族裔、年龄、性别、性取向、残疾或信仰等受保护特征区别对待个人。一个人的其他数据特征仍可被分析——但若这些特征与受保护特征相关联,会发生什么?例如,在按种族隔离的居住区,一个人的邮政编码乃至 IP 地址都可能是其种族的强代理变量。这样一来,认为算法能把带偏见的数据作为输入、却产出公平公正的结果,听上去近乎可笑 [13, 14]——然而这种信念似乎常常被数据驱动决策的拥趸所暗示,这种态度被讽刺为"机器学习就是给偏见洗钱" [15]。

预测分析系统不过是从过去做外推;如果过去本身具有歧视性,它们就在编码并放大这种歧视 [16]。如果我们希望未来比过去更好,就需要道德想象力——这是只有人类才能提供的 [17]。数据与模型应当是我们的工具,而非我们的主宰。

责任与问责

自动决策带来了责任与问责的问题 [17]。如果一个人犯了错,可以追究其责任,受决定影响者也有上诉之机。算法也会犯错,但若出错,谁来负责 [18]?自动驾驶汽车肇事,谁负责?若一个自动信用评分算法系统性地歧视某一族群或宗教,受害者有何救济?若你的 ML 系统所做的判定被司法审查,你能否向法官解释算法是如何做出这一决定的?人不应通过把过错归咎于算法来逃避自身责任。

信用评级机构是收集数据为人作决定的经典例子。糟糕的信用评分会让生活变得艰难,但至少信用评分通常基于一个人实际的借贷记录,记录中的任何错误都可以被纠正(虽然机构通常不会让此事变得容易)。然而,基于机器学习的评分算法通常使用范围更广的输入,且更不透明,让人更难弄清某项决定是如何得出的,以及某人是否受到了不公或歧视性的对待 [19]。

信用评分概括的是"你过去如何作为?",而预测分析通常问的是"与你相像的人是谁?以及与你相像的人过去如何作为?"。借他人的行为来作类比,意味着对人贴标签——例如,依据其居住地(这是种族与社会经济阶层的密切代理)。那些被分错桶的人怎么办?此外,若某项判定因错误数据而出错,几乎没有救济之途 [17]。

许多数据本质上是统计性的,这意味着即便整体的概率分布是正确的,个案也可能完全是错的。例如,若你所在国家的平均寿命是 80 岁,并不意味着你将在 80 岁生日当天倒下。从平均值与概率分布出发,无法说出某一个具体的人会活到多少岁。同样,预测系统的输出是概率性的,对个案完全可能给出错误结论。

盲目信仰数据至高无上去做决策,不仅是一种妄念,更是切实的危险。随着数据驱动决策日益普及,我们必须弄清楚:如何避免强化既有偏见,如何让算法可问责且透明,以及在它们不可避免地犯错时如何予以纠正。

我们也需要弄清楚:如何释放数据的正面潜力,并防止它被用来伤害人。例如,分析能揭示人们生活的财务与社会面貌。一方面,这种力量可被用来精准援助最需要帮助的人;另一方面,它有时也被掠夺性企业利用,以识别脆弱人群、向他们推销高息贷款或一文不值的大学学位等高风险产品 [17, 20]。

反馈回路

即便那些对人影响不那么直接、不那么深远的预测应用——比如推荐系统——也存在我们必须正视的难题。当服务擅长预测用户想看的内容时,最终可能只给用户展示他们已经认同的观点,导致回音壁的形成,让刻板印象、错误信息与极化在其中滋长。社交媒体回音壁对选举活动的影响,我们已亲眼所见。

当预测分析影响人们的生活时,特别恶劣的问题来自自我强化的反馈回路。例如,考虑雇主用信用评分评估应聘者的情形。你可能本是一名优秀员工、信用评分良好,却因不可控的不幸而陷入财务困境。当你账单逾期,信用评分下滑,工作就更难找。失业又把你推向贫穷,让工作进一步变得难找 [17]——这是一条因有毒假设而下滑的螺旋,以数学的严谨与数据的客观为伪装。

另一个反馈回路的例子是:经济学家发现,当德国加油站引入算法定价后,竞争被削弱、消费者价格反而上涨,因为算法学会了串谋 [21]。

我们并不总能预见这种反馈回路何时出现。然而许多后果可以通过对整体系统的思考而被预见——不只是计算机部件,还包括与之互动的人——这一方法被称为系统思考 [22]。我们可以试着理解一个数据分析系统如何回应不同的行为、结构或特性。这一系统是在强化、放大人与人之间的既有差距(例如让富者愈富、贫者愈贫),还是在尝试与不公作斗争?哪怕我们怀有最好的意图,也必须警惕可能产生的意外后果。

隐私与追踪

除了预测分析的种种问题——也就是用数据对人做自动化决策——数据收集本身也存在伦理难题。收集数据的组织,与被收集数据的人之间,是怎样的关系?

当一个系统只存储用户主动输入、并希望系统以特定方式存储与处理的数据时,它是在为客户提供服务;此时用户是顾客。但当用户的活动作为他们做其他事的副作用而被追踪与记录,关系就模糊了。服务不再只做用户让它做的事;它有了自己的关切,而这些关切可能与用户的利益相冲突。

对行为数据的追踪,对许多在线服务的面向用户功能日益重要:追踪哪些搜索结果被点击有助于改进搜索结果排序;提供推荐("喜欢 X 的人也喜欢 Y")能帮用户发现有趣有用的事物;A/B 测试与用户流分析可以指出 UI 该如何改进。这些功能需要某种程度的用户行为追踪,用户也从中受益。

然而,视公司的商业模式而定,追踪往往不止于此。如果服务由广告资助,广告主才是真正的顾客,用户的利益便退居其次。追踪数据变得更详细、分析更深远、数据被长期保留——为营销目的构建出每个人的详尽画像。

至此,公司与被收集数据的用户之间的关系开始呈现出迥异的面貌。用户得到一项免费服务,并被引诱尽可能多地与之交互。对用户的追踪首要服务的并非个人,而是出资资助这项服务的广告主的需要。用一个意涵更阴森的词来描述这种关系颇为贴切:监控(surveillance)。

监控

不妨做个思想实验:把"数据"一词换成"监控",看看那些常见短语听上去是否还合理 [23]。譬如这一句:在我们这个监控驱动的组织里,我们收集实时监控流并存入监控仓库;我们的监控科学家用先进的分析与监控处理来获取新洞见。

这一思想实验对本书来说异常带有论辩色彩——设计监控密集型应用——但需要用强烈的字眼来强调一点:在我们试图让软件"吃掉世界" [24] 的过程中,已经建造起了史上最大的大众监控基础设施。我们正在迅速接近这样一个世界:每一处人类居住空间都至少包含一个联网的麦克风——以智能手机、智能电视、语音助手、婴儿监视器,乃至使用云端语音识别的儿童玩具的形式存在。其中许多设备的安全记录非常糟糕 [25]。

与过去相比,新变化在于:数字化让大规模收集关于人的数据变得轻而易举。对我们的位置与行踪、社交关系与通讯、购买与支付、健康数据的监控,已近乎不可避免。监控者对一个人的了解,可能比他自己对自己的了解还多——例如在当事人意识到之前就识别出他的疾病或经济问题。

即便是过去最极权、最压抑的政权,也只能梦想着在每个房间装麦克风、强迫每个人随身携带可追踪其位置与行踪的设备。然而我们从数字技术中得到的好处太大,以至于今天我们自愿接受这种全面监控状态。差别只在于:数据的收集者是为我们提供服务的企业,而非寻求控制的政府机构 [26]。

并非一切数据收集都属于监控,但以监控的眼光来审视它,有助于我们理解自己与数据收集者的关系。我们为何似乎乐于接受企业的监控?也许你觉得自己"无可隐藏"——换句话说,你完全顺服于现有权力结构,你不是被边缘化的少数,你也无须惧怕被迫害 [27]。但并非每个人都这么幸运。又或者,是因为这一目的看起来无害——并非公开的胁迫与从众,只是更好的推荐与更个性化的营销而已。然而结合上一节关于预测分析的讨论来看,这种区分就不那么清晰了。

我们已经看到:行车的行为数据被汽车在车主未同意的情况下追踪并影响保费 [28];健康保险的承保条件视是否佩戴健身追踪器而定。当监控被用来作出影响生活重要方面(如保险或就业)的决定时,它便开始显得不那么无害。数据分析也能揭示惊人地侵入私域的事——例如,智能手表或健身追踪器中的运动传感器,可以以相当高的准确率推断出你正在键入的内容(如密码) [29]。传感器精度与分析算法只会越来越好。

同意与选择自由

我们或许会主张:用户是自愿选择使用追踪其活动的服务的,他们同意了服务条款与隐私政策,并同意了数据收集。我们甚至可以说,用户得到了一项有价值的服务作为对价;而要提供该服务,追踪是必要的。毫无疑问,社交网络、搜索引擎以及各种免费在线服务对用户都是有价值的——但这一论点仍存在问题。

首先,我们应当问追踪为何是必要的。某些追踪形式会直接喂入并改善面向用户的功能——例如,追踪搜索结果的点击率有助于提升搜索引擎结果的排序与相关性,追踪客户常一起购买的商品有助于网店推荐相关商品。然而,当对用户互动的追踪是为了做内容推荐,或为广告目的构建用户画像时,是否真正符合用户利益就不那么清楚了。是否仅因为广告在为服务买单,所以追踪才有必要?

其次,多数用户对自己向数据库喂入了什么数据、数据被如何保留与处理几乎一无所知——而绝大多数隐私政策更多在掩盖而非阐明。在不了解自己数据将被如何对待的情况下,用户无法给出有意义的同意。一个用户的数据通常也涉及其他人——这些人并非该服务的用户,从未同意任何条款。我们前几章讨论过的那种派生数据集——其中整个用户群的数据可能与行为追踪和外部数据源被综合到一起——正是用户无法真正理解的那种数据。

而且,数据是通过一种单向流程从用户那里抽取出来的,并非建立在真正互惠或公平价值交换的关系上。没有对话,用户无从协商提供多少数据以换取何种服务。服务与用户的关系是不对称、单向的;条款由服务方制定,而非由用户制定 [30, 31]。

在欧盟,《通用数据保护条例》(GDPR)规定同意必须"自由作出、具体、知情且毫不含糊",且用户必须能"在不受损害的前提下拒绝或撤回同意"——否则同意便不被视为"自由作出"。任何同意请求都必须以"易懂且易得的形式,使用清晰平实的语言"表达,且"沉默、预勾选框或不作为不构成同意" [32]。

在 GDPR 下,同意并非合法处理个人数据的唯一基础。还有几种基础——包括为遵守其他法律或为保护他人生命所必需。此外,正当利益基础允许某些数据用途(例如反欺诈)[33](欺诈者大概不会同意如此使用)。尽管如此,在互联网服务中,同意仍是处理个人数据最常用的基础。

你可能会说:不同意被监控的用户可以选择不使用该服务。但这种选择并非真正自由。若某项服务流行到"被多数人视为基本社会参与所必需"[30] 的程度,期望人们退出使用就不合理——其使用实际上是被强制的。例如,在多数西方社会,携带智能手机、在社交网络上交友、用 Google 寻找信息已成常态。尤其当一项服务具有网络效应时,选择不使用会带来社会成本。

因追踪政策而拒绝使用某项服务,说来容易做起来难。这些平台正是为吸引用户而设计的;很多还借助了赌博中常用的游戏化机制与策略以让用户不断回访 [34]。即便用户能跨过这道坎,拒绝参与也只是少数特权用户的选项——他们有时间与知识理解隐私政策,也能承受错过社会参与或职业机会的代价。对处境不那么有利的人而言,并不存在有意义的选择自由;监控变得不可避免。

隐私与数据使用

有时人们说"隐私已死",理由是有些用户愿意把生活中的琐事乃至深度私人之事发到社交媒体上。然而这种说法是错的,源于对隐私一词的误解。

拥有隐私并不意味着把一切秘而不宣;而是意味着拥有自由——选择对谁透露什么、什么公开、什么保密。隐私权是一种决策权:它让每个人在每种情境下都能决定自己想处于"秘密—透明"光谱的何处 [30]。它是一个人自由与自主的重要面向。

例如,某位罹患罕见疾病的人可能非常乐意把自己的私人医疗数据提供给研究人员,若这能促进对其病情疗法的开发。然而,此人必须能选择由谁、为何目的访问这些数据。如果其病情信息可能阻碍他获得医保或就业,那他在分享数据时大概会更谨慎。

当数据通过监控基础设施从人那里抽取,隐私权并不必然消解,而是被转移给了数据收集者。获取数据的公司其实是在说:"相信我们会用你的数据做对的事。"这意味着"决定透露什么、保密什么"的权利从个人转移到了公司。

公司继而选择把这些监控的成果大多保密,因为公开会显得"令人不适",并损害其商业模式(其商业模式恰恰建立在"比其他公司更了解人"之上)。关于用户的私密信息只以间接的形式被披露——例如以工具的形式,将广告精准投放给特定人群(如患某种疾病的人)。

即便某条广告所定向到的人群中的具体某人无法被重新识别,他们对那种私密信息的披露本身就已失去了能动权。决定向谁、依据其个人偏好披露什么的,不再是用户本人——而是行使隐私权以追求利润最大化的公司。

许多公司希望避免被视为令人不适,因此回避谈论自家数据收集到底有多侵入,转而专注于管理用户感知。即便对感知的管理本身也常常做得糟糕——譬如某事在事实上正确,但若触发了痛苦的回忆,用户也未必愿意被提醒 [35]。对任何数据,我们都应预料到它可能是错的、不愿被提及的,或在某种意义上不合时宜的;我们需要建立机制来处理这些失败。某事是否"不愿被提及"或"不合时宜",当然取决于人的判断;除非我们明确编程让算法尊重人类需求,否则它们对此一无所知。作为这些系统的工程师,我们必须保持谦卑,承认并为这类失败做好规划。

允许在线服务用户控制其数据的哪些方面对其他用户可见的隐私设置,是把部分控制权交还给用户的起点。然而无论设置如何,服务本身仍可自由访问数据,并在隐私政策允许范围内任意使用。即便服务承诺不向第三方出售数据,通常也会给自己留下不受限制的权利在内部处理与分析,远远超出用户能直接看到的范围。

这种把隐私权从个人大规模转移到企业的做法,在历史上前所未有 [30]。监控始终存在,但过去成本高昂、依赖人力,无法规模化、无法自动化。信任关系也始终存在——例如医患之间、被告与律师之间——但在那些情形下,对数据的使用受到严格的伦理、法律与监管约束。互联网服务让在没有有意义同意的情况下大规模累积敏感信息变得容易得多,也能在用户不了解其私人数据上发生了什么的情况下大规模使用这些数据。

数据作为资产与权力

由于行为数据是用户与服务交互的副产物,它有时被称为"数据废气"——暗示这些数据是无价值的废料。从这种视角看,行为分析与预测分析可被视为一种回收:从原本会被丢弃的数据中提取价值。

更恰当的看法恰恰相反。从经济学角度看,若靶向广告是为服务买单的来源,那么用户产生行为数据的活动便可视为一种劳动 [36]。可以再进一步认为:用户与之交互的应用本身只是一种引诱手段,把用户骗去往监控基础设施中喂入越来越多的个人信息 [30]。在线服务中常见的人类创造力与社交关系的可贵之处,正被数据抽取机器愤世嫉俗地利用。

个人数据是一种宝贵的资产——其证据便是数据掮客的存在:他们暗中购买、聚合、分析与转售人的个人数据,主要用于营销目的 [20]。初创公司的估值取决于其用户数量或"眼球数"——也就是其监控能力。

正因数据有价值,许多人都想要它。当然,公司想要它——这才是它们一开始就收集数据的原因。但政府也想要:它们可能通过秘密交易、强制、法律施压或简单的盗窃获取数据 [37]。一家公司倒闭后,所收集的个人数据是被出售的资产之一。而且由于数据难以被妥善保护,数据泄露层出不穷。

这些观察让一些批评者认为:数据不只是资产,更是一种"有毒资产" [37],或至少是一种"有害物质" [38]。也许数据不是新的黄金或新的石油,而是新的铀 [39]。即便我们以为自己有能力防止数据被滥用,每当我们收集数据时,也得权衡其益处与"数据落入不法之手"的风险。计算机系统可能被罪犯或敌对的外国情报部门攻破,数据可能被内部人员泄露,公司可能落入与我们价值观不一致的不正当管理之手,国家也可能被毫不犹豫强迫我们交出数据的政权所接管。

这一观察提示我们:在收集数据时,我们不只要考虑当今的政治环境,还要考虑一切可能的未来政府。无人能保证未来每一届当选政府都会尊重人权与公民自由;正如 Bruce Schneier 所言:"安装那些有朝一日可能助长警察国家的技术,是糟糕的公民习惯" [40]。

"知识就是力量"——古老格言如是说。又如:"在审视他人的同时回避被他人审视,是最重要的权力形式之一" [41]。这正是极权政府想要监控的原因:它给了它们控制人民的权力。尽管当今科技公司并非公开寻求政治权力,但它们累积的数据与知识——其中许多是悄悄获得、未经公众监督的——仍然给了它们对我们生活极大的支配力 [42]。

回望工业革命

数据是信息时代的标志性特征。互联网、数据存储与处理,以及由软件驱动的自动化,正在对全球经济与人类社会产生重大影响。随着我们的日常生活与社会组织被信息技术改变——并很可能在未来数十年继续被剧烈改变——人们不禁拿它与工业革命相比 [17, 26]。

工业革命的到来源于重大的技术与农业进步,并在长期内带来了持续的经济增长与生活水平的显著提升——但它也伴随着重大问题。空气(因烟雾与化学过程)与水(因工业与人类废弃物)的污染极为糟糕。工厂主住在富丽堂皇之中,而城市工人则常住在拥挤不堪、毫无卫生可言的房屋里,在恶劣条件下长时间劳作。童工普遍存在,包括矿井中危险且报酬低劣的工作。

环保法规、工作场所安全规范、童工禁令、食品卫生检查等保障措施的建立,花了很长时间。毋庸置疑,工厂不再被允许向河中倾倒废物、销售掺假食品、剥削工人之后,营业成本上升了。但社会作为一个整体从这些规制中获益巨大,今天我们当中很少有人愿意回到那个时代 [17]。

正如工业革命有需要被治理的阴暗面,我们向信息时代的转型也面临着我们必须正视并解决的重大问题 [43, 44]。数据的收集与使用便是其中之一。引用 Bruce Schneier 的话 [26]:

数据是信息时代的污染问题,保护隐私是与之对应的环境挑战。几乎所有计算机都会产生信息。它会四处停留、堆积、腐烂。我们如何处理它——如何遏制它、如何处置它——对我们信息经济的健康至关重要。正如今天我们回望工业时代早期数十年,惊讶于我们的祖辈何以能在工业建设的狂奔中忽视污染,我们的孙辈也会回望我们这信息时代早期的数十年,并以我们如何应对数据收集与滥用挑战来评判我们。

我们应当试着让他们引以为荣。

立法与自我规制

数据保护法可以帮助维护个人权利。例如,GDPR 规定个人数据必须"为指定、明示且合法之目的而收集,并不得以与这些目的不相容的方式被进一步处理",且必须"与处理目的相关、必要并以此为限" [32]。

然而,这一数据最小化原则与大数据哲学正面相悖——后者旨在最大化数据收集、把所收集数据与其他数据集组合,并通过实验与探索得出新洞见。探索意味着把数据用于未预见的目的,而 GDPR 称这恰恰违背了数据当初被收集所为的"指定且明示"目的。尽管该法规对在线广告业产生了一定影响 [45],但执行力度较弱 [46],似乎也未让广义科技业的文化与做法发生多大改变。

那些大量收集个人数据的公司普遍把规制视为负担与对创新的阻碍。在一定程度上,这种反对是合理的。例如,分享医疗数据对隐私构成明显风险,但也带来潜在机会:如果数据分析能让我们获得更好的诊断或更好的治疗,那能避免多少死亡 [47]?过度规制可能阻碍此类突破。要在潜在机会与风险之间取得平衡,本身就很困难 [41]。

根本上,我们需要科技业在对待个人数据的态度上发生一场文化转变。我们应停止把用户视为待优化的指标,而要记住他们都是人,应得尊重、尊严与能动权。我们应自我规制数据收集与处理的做法,以建立并维护那些依赖我们软件的用户对我们的信任 [48]。我们也应主动教育终端用户、说清他们的数据被如何使用,而不是把他们蒙在鼓里。

我们应让每个人都能维护自己的隐私(即对自身数据的控制权),而不是通过监控从他们手中窃走这种控制。我们对自身数据的个体控制权,就像一座国家公园的自然环境:若我们不明确地保护与照看,它就会被毁。那将是公地悲剧,我们都会因此更糟。无处不在的监控并非不可避免。我们仍能阻止它。

作为第一步,我们不应永久保留数据,而应在数据不再需要时尽快清除,并把一开始就收集的数据降到最低 [48, 49]。你不持有的数据,便无法被泄露、被偷、被政府强制交出。总体而言,文化与态度上的改变是必要的。作为科技从业者,如果不考虑自己工作的社会影响,那就没尽到本职 [50]。

小结

至此,我们抵达本书的尾声。我们覆盖了大量内容:

  • 第 1 章对比了分析型与运营型系统,比较了云与自托管,权衡了分布式与单节点系统,并讨论了如何在业务需要与用户需要之间取得平衡。
  • 第 2 章介绍了如何定义若干非功能性需求,例如性能、可靠性、可扩展性与可维护性。
  • 第 3 章探讨了多种数据模型,包括关系、文档、图模型、事件溯源以及 DataFrame。我们也看了多种查询语言的例子,包括 SQL、Cypher、SPARQL、Datalog 与 GraphQL。
  • 第 4 章讨论了 OLTP 的存储引擎(LSM 树与 B 树)与分析(列式存储),以及用于信息检索(全文搜索与向量搜索)的索引。
  • 第 5 章考察了把数据对象编码为字节的不同方式,以及如何随着需求演化而支持演化。我们也比较了进程之间数据流动的多种方式:经由数据库、服务调用、工作流引擎与事件驱动架构。
  • 第 6 章研究了单主、多主与无主复制之间的权衡。我们也看了诸如读写一致性等一致性模型,以及让客户端能离线工作的同步引擎。
  • 第 7 章看了分片,包括重新平衡的策略、请求路由与二级索引。
  • 第 8 章覆盖了事务,考虑了持久性、各种隔离级别(读已提交、快照隔离与可串行化)如何实现,以及在分布式事务中如何确保原子性。
  • 第 9 章梳理了分布式系统中出现的根本问题(网络故障与延迟、时钟错误、进程暂停、崩溃),并看到它们如何让甚至像锁这样表面简单的事也难以正确实现。
  • 第 10 章深入探讨了多种共识形式,以及它所支持的一致性模型(线性一致性)。
  • 第 11 章深入讨论了批处理,从简单的 Unix 工具链一路构建到使用分布式文件系统或对象存储的大规模分布式批处理器。
  • 第 12 章把批处理推广到流处理,讨论了底层的消息代理、CDC、容错以及流式连接等处理模式。
  • 第 13 章探索了流系统的哲学——它使得不同的数据系统可被集成、系统可演化、应用可更易扩展。

最后,在本章中我们退后一步,考察了构建数据密集型应用的若干伦理面向。我们看到:尽管数据可以被用来行善,它也能造成重大伤害——做出严重影响人们生活且难以申诉的决定,导致歧视与剥削,让监控变得寻常,并暴露私密信息。我们也讨论了数据泄露的风险,并看到对数据善意的使用也可能带来意外后果。

考虑到软件与数据对世界产生的巨大影响,我们身为工程师必须记得:我们肩负着为我们想要生活其中的那种世界而努力的责任——一个以人为本、尊重待人的世界。让我们一道朝这一目标努力。

参考文献

[1] David Schmudde. "What If Data Is a Bad Idea?" schmud.de, August 2024. 归档于 perma.cc/ZXU5-XMCT

[2] Association for Computing Machinery. "ACM Code of Ethics and Professional Conduct." acm.org, 2018. 归档于 perma.cc/SEA8-CMB8

[3] Igor Perisic. "Making Hard Choices: The Quest for Ethics in Machine Learning." linkedin.com, November 2016. 归档于 perma.cc/DGF8-KNT7

[4] John Naughton. "Algorithm Writers Need a Code of Conduct." theguardian.com, December 2015. 归档于 perma.cc/TBG2-3NG6

[5] Deborah G. Johnson and Mario Verdicchio. "Ethical AI Is Not About AI." Communications of the ACM, volume 66, issue 2, pages 32–34, January 2023. doi:10.1145/3576932

[6] Ben Green. "'Good' Isn't Good Enough." 见 NeurIPS Joint Workshop on AI for Social Good, December 2019. 归档于 perma.cc/H4LN-7VY3

[7] Marc Steen. "Ethics as a Participatory and Iterative Process." Communications of the ACM, volume 66, issue 5, pages 27–29, April 2023. doi:10.1145/3550069

[8] Logan Kugler. "What Happens When Big Data Blunders?" Communications of the ACM, volume 59, issue 6, pages 15–16, June 2016. doi:10.1145/2911975

[9] Miri Zilka. "Algorithms and the Criminal Justice System: Promises and Challenges in Deployment and Research." 见 University of Cambridge Security Seminar Series, March 2023. 归档于 archive.org

[10] Bill Davidow. "Welcome to Algorithmic Prison." theatlantic.com, February 2014. 归档于 archive.org

[11] Don Peck. "They're Watching You at Work." theatlantic.com, December 2013. 归档于 perma.cc/YR9T-6M38

[12] Leigh Alexander. "Is an Algorithm Any Less Racist Than a Human?" theguardian.com, August 2016. 归档于 perma.cc/XP93-DSVX

[13] Jesse Emspak. "How a Machine Learns Prejudice." scientificamerican.com, December 2016. perma.cc/R3L5-55E6

[14] Rohit Chopra, Kristen Clarke, Charlotte A. Burrows, and Lina M. Khan. "Joint Statement on Enforcement Efforts Against Discrimination and Bias in Automated Systems." ftc.gov, April 2023. 归档于 perma.cc/YY4Y-RCCA

[15] Maciej Cegłowski. "The Moral Economy of Tech." idlewords.com, June 2016. 归档于 perma.cc/L8XV-BKTD

[16] Greg Nichols. "Artificial Intelligence in Healthcare Is Racist." zdnet.com, November 2020. 归档于 perma.cc/3MKW-YKRS

[17] Cathy O'Neil. Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. Crown Publishing, 2016. ISBN: 9780553418811

[18] Julia Angwin. "Make Algorithms Accountable." nytimes.com, August 2016. 归档于 archive.org

[19] Bryce Goodman and Seth Flaxman. "European Union Regulations on Algorithmic Decision-Making and a 'Right to Explanation.'" 见 ICML Workshop on Human Interpretability in Machine Learning, June 2016. 归档于 arxiv.org

[20] United States Senate Committee on Commerce, Science, and Transportation, Office of Oversight and Investigations, Majority Staff. "A Review of the Data Broker Industry: Collection, Use, and Sale of Consumer Data for Marketing Purposes." Staff Report, commerce.senate.gov, December 2013. 归档于 perma.cc/32NV-YWLQ

[21] Stephanie Assad, Robert Clark, Daniel Ershov, and Lei Xu. "Algorithmic Pricing and Competition: Empirical Evidence from the German Retail Gasoline Market." Journal of Political Economy, volume 132, issue 3, pages 723–771, March 2024. doi:10.1086/726906

[22] Donella H. Meadows and Diana Wright. Thinking in Systems: A Primer. Chelsea Green Publishing, 2008. ISBN: 9781603580557

[23] Daniel J. Bernstein. "Listening to a 'big data'/'data science' talk. Mentally translating 'data' to 'surveillance': '…everything starts with surveillance…'" x.com, May 2015. 归档于 perma.cc/EY3D-WBBJ

[24] Marc Andreessen. "Why Software Is Eating the World." a16z.com, August 2011. 归档于 perma.cc/3DCC-W3G6

[25] J. M. Porup. "'Internet of Things' Security Is Hilariously Broken and Getting Worse." arstechnica.com, January 2016. 归档于 archive.org

[26] Bruce Schneier. Data and Goliath: The Hidden Battles to Collect Your Data and Control Your World. W. W. Norton, 2015. ISBN: 9780393352177

[27] The Grugq. "Nothing to Hide." grugq.tumblr.com, April 2016. 归档于 perma.cc/BL95-8W5M

[28] Federal Trade Commission. "FTC Takes Action Against General Motors for Sharing Drivers' Precise Location and Driving Behavior Data Without Consent." ftc.gov, January 2025. 归档于 perma.cc/3XGV-3HRD

[29] Tony Beltramelli. "Deep-Spying: Spying Using Smartwatch and Deep Learning." Master's thesis, IT University of Copenhagen, December 2015. 归档于 arxiv.org

[30] Shoshana Zuboff. "Big Other: Surveillance Capitalism and the Prospects of an Information Civilization." Journal of Information Technology, volume 30, issue 1, pages 75–89, April 2015. doi:10.1057/jit.2015.5

[31] Michiel Rhoen. "Beyond Consent: Improving Data Protection Through Consumer Protection Law." Internet Policy Review, volume 5, issue 1, March 2016. doi:10.14763/2016.1.404

[32] "Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016." Official Journal of the European Union, L 119/1, May 2016.

[33] UK Information Commissioner's Office. "What Is the 'Legitimate Interests' Basis?" ico.org.uk. 归档于 perma.cc/W8XR-F7ML

[34] Tristan Harris. "How a Handful of Tech Companies Control Billions of Minds Every Day." 见 TED2017, April 2017. 归档于 archive.org

[35] Carina C. Zona. "Consequences of an Insightful Algorithm." 见 GOTO Berlin, November 2016.

[36] Imanol Arrieta Ibarra, Leonard Goff, Diego Jiménez Hernández, Jaron Lanier, and E. Glen Weyl. "Should We Treat Data as Labor? Moving Beyond 'Free.'" American Economic Association Papers Proceedings, volume 108, pages 38–42, May 2018. doi:10.1257/pandp.20181003

[37] Bruce Schneier. "Data Is a Toxic Asset, So Why Not Throw It Out?" schneier.com, March 2016. 归档于 perma.cc/4GZH-WR3D

[38] Cory Scott. "Data is not toxic—which implies no benefit—but rather hazardous material, where we must balance need vs. want." x.com, March 2016. 归档于 perma.cc/CLV7-JF2E

[39] Mark Pesce. "Data Is The New Uranium—Incredibly Powerful And Amazingly Dangerous." theregister.com, November 2024. 归档于 perma.cc/NV8B-GYGV

[40] Bruce Schneier. "Mission Creep: When Everything Is Terrorism." schneier.com, July 2013. 归档于 perma.cc/QB2C-5RCE

[41] Lena Ulbricht and Maximilian von Grafenstein. "Big Data: Big Power Shifts?" Internet Policy Review, volume 5, issue 1, March 2016. doi:10.14763/2016.1.406

[42] Ellen P. Goodman and Julia Powles. "Facebook and Google: Most Powerful and Secretive Empires We've Ever Known." theguardian.com, September 2016. 归档于 perma.cc/8UJA-43G6

[43] Judy Estrin and Sam Gill. "The World Is Choking on Digital Pollution." washingtonmonthly.com, January 2019. 归档于 perma.cc/3VHF-C6UC

[44] A. Michael Froomkin. "Regulating Mass Surveillance as Privacy Pollution: Learning from Environmental Impact Statements." University of Illinois Law Review, volume 2015, issue 5, August 2015. 归档于 perma.cc/24ZL-VK2T

[45] Pengyuan Wang, Li Jiang, and Jian Yang. "The Early Impact of GDPR Compliance on Display Advertising: The Case of an Ad Publisher." Journal of Marketing Research, volume 61, issue 1, April 2023. doi:10.1177/00222437231171848

[46] Johnny Ryan. "Don't Be Fooled by Meta's Fine for Data Breaches." The Economist, May 2023. 归档于 perma.cc/VCR6-55HR

[47] Jessica Leber. "Your Data Footprint Is Affecting Your Life in Ways You Can't Even Imagine." fastcompany.com, March 2016. 归档于 archive.org

[48] Maciej Cegłowski. "Haunted by Data." idlewords.com, October 2015. 归档于 archive.org

[49] Sam Thielman. "You Are Not What You Read: Librarians Purge User Data to Protect Privacy." theguardian.com, January 2016. 归档于 archive.org

[50] Jez Humble. "It's a cliché that people get into tech to 'change the world.' So then, you have to actually consider what the impact of your work is on the world. The idea that you can or should exclude societal and political discussions in tech is idiotic. It means you're not doing your job." x.com, April 2021. 归档于 perma.cc/3NYS-MHLC

原书 © 2026 Martin Kleppmann & Chris Riccomini · 中文翻译仅供学习交流