图 3-3 数据、算法和用户互动反馈回路中的偏差框架
希拉-米歇尔(Shira Mitchell)等和马特乌斯-多拉塔(Mateusz Dolata)等提出了公平计算的数学模型。从跨领域的角度给出了算法中偏差的处理方法:
预处理(Pre-processing)。预处理技术试图改变数据,以便消除潜在的歧视。如果允许算法修改训练数据,那么就可以使用预处理。内处理(In-processing)。内处理技术试图修改和改变最先进的
学习算法,以便在模型训练过程中消除歧视。如果允许改变机器学习模型的学习程序,那么在模型的训练过程中,可以通过在目标函数中加入变化或施加约束来使用内处理。
后处理(Post-processing)。后处理是在训练后,通过访问模型训练过程中未涉及的保留集来进行的。如果算法只能把学到的模型当作一个黑箱,没有任何能力来修改训练数据或学习算法,那么只能使用后处理。模型最初分配的标签在后处理阶段会根据一个函数重新分配。
3.3.3 算法治理
(1)算法治理法律法规
算法对人类社会生活影响的普遍性和深刻性使算法成为堪比自然环境的人工环境,算法影响的利弊两面性,以及算法侵害的不断出现将人类推入算法治理时代。邱泽奇指出,中美欧在算法治理领域的探索实践呈现不同格局,美国从防范算法侵害入手,形成了政府和第三方的问责模式;欧盟从数据保护入手,逐渐与美国的问责模式汇流;作为数字时代三方国际力量之一的中国,从 1994 年制定第一部相关行政指令《计算机信息系统安全保护条例》到目前,共出台了 60 多部相关法律法规和行政指令。从时间书序来看,可以认为我国的算法治理是从总体安全入手实施治理,但尚未形成有法理逻辑和明确操作路径的算法治理模式。表 3-1 列出了对算法治理起到关键影响的法律法规。
表 3-1 算法治理代表性法律法规
时间 | 法律法规 | 核心 |
2009 | 《互联网信息服务管理 办法》 | 是行政许可对服务内容相关的约定, 属于数据经营监管类的行政指令。 |
2017 | 《网络安全法》 | 奠定了算法治理的基本方向,强调数 字基础设施、网络信息的安全与保障。 |
2019 | 《电子商务法》 | 聚焦交易安全,部分内容涉及对算法 结果的治理。 |
2019 | 《儿童个人信息网络保护规定》 | 虽聚焦于个人信息,强调了信息安全,对儿童信息相关运营商的责任约 定。 |
2020 | 《网络信息内容生态治理规定》 | 在关于内容服务的第十二条涉及了算法治理,是从内容安全出发的。 |
2021 | 《数据安全法》 | 将网络安全进一步延伸到数据领域, 指导简历健全数据安全治理体系。 |
2021 | 《个人信息保护法》 | 涉及算法治理,出现了与欧盟 GDPR 相似的内容,安全指向依然清晰明确。 |
2022 | 《互联网信息服务算法 推荐管理规定》 | 第一部针对算法的管理规定,针对不 正当竞争等算法侵害的规范。 |
(2)算法治理的框架
基于欧美在算法治理中的经验教训,并结合目前我国算法治理存在的问题,清华大学公共管理学院曾雄和中国信息通信研究院胡坚波等学者就算法治理框架的构建提出以下方向性的政策建议。
①在治理目标上,实现算法可问责与算法经济高质量发展。算法治理的根本目标在于促进算法经济的高质量发展,在日益复杂的国际竞争形势下,提高自主技术创新的能力和水平是国家安全发展的根本出路。②在治理对象上,建立一套共性的规则和标准后,统筹考虑多元应用场景基于对拓宽算法治理对象的考虑,可以制定一部《算法问责法》实现算法的综合治理,并为算法问责建立一套完
整的责任机制,包括明确问责主体、被问责对象、问责方式和程序以及问责事项等。③在治理手段上,补强司法救济和技术治理措施推行“遵循伦理的设计”机制可以确立算法的底层伦理标准,实现事前干预。利用算法评估提前研判安全风险,利用技术手段预警日常风险隐患,利用行业标准明确算法运行底层逻辑。④在治理模式上,积极构建多元主体协同的治理模式。发挥政府在算法治理中的主导作用,规范企业切实履行算法治理主体责任,引导行业组织积极参与算法治理,鼓励公众参与算法治理,完善社会监督,深化算法治理国际合作。
3.3.4 小结
在社会规则算法化的过程中,针对算法运行流程本身,算法设计人员会将自己的主观意识,如问题的定义、数据的收集、模型的选择都会有意无意融入到算法规则,这对于算法的结果会造成影响。同时算法过度决策会给公众造成巨大的困扰,比如公众只注意自己选择的东西和使自己愉悦的通讯领域,从而形成信息茧房;算法继承了来自于社会本身的偏见问题,并且进一步放大;在做出判断和决策的时候,被算法操纵等等。这一系列风险在使用人工智能和大数据算法时,是不可避免的,在使用算法时,我们需要对风险识别、形成机理、评估和预警,以及治理等问题开展研究,为人工智能、大数据等新技术平稳安全落地,服务人类社会。