部分常用算法模型的不可解释性长期制约着算法的治理。解决思路有二:从易于解释、可以治理的部分入手,或者不断解耦算法、使之分离成各自皆易于解释、可以治理的若干部分。前一思路对制度的影响更深:无论是域内首创的备案制度,还是域外以欧盟《人工智能法》提案为代表的立法尝试,都秉持了“可以说清之事,说清楚”的原则。后一思路则对技术发展颇有影响——实际上,解耦表征学习本就是方兴未艾的、解释算法的进路之一。
数据表征正赫然处于制度和技术思路的交叉点。一方面,由域外执法趋势可见:表征正日益成为数据和算法间的执法连接点。数据的治理驾轻就熟,算法的治理歧路犹多。通过治理表征,多国执法机构得以将治理工具和能力伸展到错综复杂的深度神经网络内部。另一方面,无论是各类从表征角度出发解耦算法的前沿发展,还是以特征商店为代表的,使得表征标准化、可流通、可治理的产业趋势,都足以担当承载算法治理“过河”的河底石。
从Everalbum等案所见的治理新趋势
Everalbum是一家为用户提供照片上传和存储服务的公司。此外,Everalbum还通过人脸识别算法,为用户提供照片分组管理服务。例如,假使人脸识别发现同一朋友出现在用户的多张照片中,这些照片就自动归入一组。Everalbum声称:只有用户明确同意,才会开启这一服务。Everalbum还声称:一旦注销账户,用户的数据便都会被删除。现实中,两点都不成立:人脸识别实际是默认开启;注销以后,数据也不会完全删除。
美国联邦贸易委员会(以下简称FTC)因此调查Everalbum。双方在2021年5月达成包含多方面整改措施的和解令。比较过往的FTC和解令,大部分措施并不陌生:纠正不实的陈述、删除未经同意收集的数据、删除注销后本应删除的数据、设立长期合规项目、定期提交合规整改报告,等等。与此同时,其中还有一类首次出现的措施:要求删除基于前述数据开发的“工作产品”,包括相应的人脸嵌入和算法模型。前者即属于人脸数据的表征。
截至目前,尽管各国制度对算法的关切皆多,主要法域的实际执法仍少。对算法有深入分析说理,并处以切实处置措施的更少。作为主要法域内主要执法机构的FTC的决定首次纳入数据表征,自然值得瞩目。在报道这份FTC内部一致通过的和解令时,FTC官方也把嵌入这部分内容作为突出的内容。
从更具体的角度看,这份和解令还有三则值得关注的细节。首先,按其官方报道,“与人脸识别技术的使用同时创建的人脸嵌入”属于“个人信息”。这就在美国法下回应了前文的疑难。其次,在致世界隐私论坛的复信中,FTC进一步在技术层面明确道:删除所涵盖的嵌入范围非常广泛,不仅包括“一串数字”形式的表征,也包括以随机分布形式体现的“概率性人脸嵌入”。简言之,FTC已经考虑了技术上形式相对复杂的表征。最后,在同一复信中,FTC还明确道:人脸表征不仅包括基于人脸生成的表征,还包括其他多模态的表征,比如基于视频的表征。综之,FTC执法范围已足以覆盖各类关切算法所依赖的表征。
Everalbum案体现的执法趋势不是孤例。2022年3月,FTC又调查了体重营养管理应用WeightWatchers。因WeightWatchers不当收集儿童个人信息,和解令同样规定了诸多整改措施。其中也再一次出现了删除“工作产品”,包括算法模型的类似要求。FTC主席LinaKhan在个人社交媒体上自豪地称其为儿童个人信息保护领域的“首创”。总而观之,Everalbum当为美国法下算法治理新趋势的起点之一。表征则是其中的突出组成部分。
ClearviewAI案同样瞄准数据表征
作为域外趋势共通点的表征,究竟是什么?ClearviewAI是一家核心业务完全围绕人脸识别运行的公司。于是,自然也会涉及表征。简言之,ClearviewAI先从社交媒体等多类来源爬取数以亿计的照片,然后生成人脸矢量。矢量属于表征的一种。在此基础上,ClearviewAI再向各国执法机构提供人脸检索匹配服务:执法机构提供人脸图像,ClearviewAI将其矢量化后,准确、迅速地在数十亿张照片中寻得包含同一人的所有照片。这一业务业已行销全球多地。
ClearviewAI对作为敏感个人信息的人脸的如此处理行为,既未事先取得同意,也没有提供易用、彻底的删除措施。多国因此开展调查。其中,英国与澳大利亚两大主要法域联合展开的调查最具影响力。两国2021年10月联合发布的决定不仅详细解释了何谓矢量(表征),还展示了分析表征法律性质的逻辑。
具言之,决定首先开门见山:本案中,“矢量是对所爬取图片包含信息的数学表征。”之后,决定从两个角度展开矢量的法律性质,阐明为何应当认定为个人信息:其一,无论其他事实如何,本案中表征人脸的矢量,总是对个人生理特征的测度和记录。且相应的生理特征随时间保持稳定、难以更改。其二,这些矢量的处理目的,终究还是从数十亿张照片中“区别”、亦即“识别”出一个人。因此,即使矢量难以为人所理解,单独(不结合特定算法)也无法识别到个人,依然应当认定为个人信息。循此,两地适用于个人信息的各类制度规定,都可以自然地适用于众多类型的表征,进而伸展至依赖相应表征的算法。