< 上一个 | 内容 | 下一个 >

3.6 数字社会数据隐私保护与隐私技术发展

在数字经济时代,数据已成为一种新的生产要素。我们每个人每天都在产生新的数据,同时我们的私人数据也在不经意间被泄露和利用。数据改善着人们的生活水平,使工作变得容易,但同时也


对个人隐私造成极大破坏,高度信息化使得私密信息泄露风险增加。在国务院印发的《“十四五”数字经济发展规划》中明确提出,需加快构建数据要素市场规则,培育市场主体,完善治理体系,促进数据要素市场流通。此外,人工智能技术的突飞猛进对数据所有权和用户隐私保护也提出了新的挑战。因此,研究数据保护、确权、定价、交易和公平性机制,不仅对拥有数据的主体意义重大,可以保障其在数字化时代的基本权利,而且对整个社会的经济发展和公平分配也是基础性的。

加强个人数据隐私保护,防范数字化权力风险,开创数据“可用不可见”的新局面,是加快构建数据要素市场规则的迫切需求和重要内容,从隐私保护技术研发的角度来看,该领域研究问题众多。

3.6.1 分布式隐私计算与建模

在大数据时代中,数据价值的体现必然依赖于数据之间的相互流通,但数据的流通又必然导致个人隐私安全的破坏,所以如何在实现数据流动的同时,有效防止敏感信息泄露,保护数据隐私安全是当前大数据应用技术发展的一个重要研究问题,隐私计算便由此产生。

隐私保护技术通俗来说即是实现数据的“可用不可见”,数据可用性即开放性,指的是充分利用各种数据,让数据对外开放,服务于决策;数据不可见性即不共享性,指的是数据不离开机构(如政府、互联网企业、运营商等)或个人,保证数据不对外直接共享。要实现隐私保护的以上要求,就必须对数据进行加密,且在数据被访问时,采取技术手段防止数据中敏感信息被访问者以某些方式“逆向”获取,从而造成用户敏感信息被泄露和滥用。在数据密集型计


算范式时代,如何妥善、安全地获取和使用数据成为迫切需要解决的问题。然而,数据自身具有分散性和非排他性。不同于一般实物,数据可以同时或非同时地为多个主体所使用,且只有在使用中才会产生价值,因而数据也很难做到中心化管理,谁都可能获得和使用数据。此时,分布式计算和建模成为数据隐私保护的更好选择,在这一范式下可依赖的关键技术包括联邦学习(federated learning)、安全多方计算( secure multi-party computation SMPC )、区块链

blockchain) 和差分隐私(differential privacy)。

1)联邦学习

在现实生活中,除了政府和极少数大型互联网企业能够拥有海量优质的客户数据,绝大多数公司都面临数据量少、数据质量不高的问题,缺少支撑人工智能技术的基本前提条件,这些分散的数据往往会形成孤岛。联邦学习的产生便是为了解决这些数据孤岛问题。

联邦学习是一种新型的机器学习设定,其目的是在保证数据隐私安全,以及合法合规的前提下,实现各方共同建模,将模型训练的过程由中心转移到各个数据拥有者手中,而不需要集中收集数据。在联邦学习中,许多客户端可以在一个中央服务器的协调下共同训练模型,在保证各客户端节点独立训练模型的同时,又能实现不同节点之间的数据共享。

近年来,由于各国法律法规的约束,我们已经无法像以前一样直接粗暴地收集客户数据,然后用以完成机器学习任务。根据现行法律法规对用户个人隐私的保护,大多用户数据都必须保留在用户本地,虽然这些举措有效地保护了个人隐私,但同时也不方便实现数据交换和整合,大大制约了机器学习能力的进一步提高,因此隐


私安全的保护和人工智能模型能力的提升两者之间形成了矛盾。联邦学习便是人们在此情形下探索出的一种机器学习新模式,其可以在不交换本地原始数据的前提下,仅通过模型参数或中间结果的传递来实现全局模型的构建,从而很好地解决了隐私保护和数据共享之间的矛盾。也可以说,联邦学习是一种“数据可用不可见”“数据不动模型动”的应用新范式。

2)安全多方计算

安全多方计算是指在无可信第三方参与的情况下,拥有数据的多方在确保数据不泄露的同时,利用隐私数据参与保密计算,共同得到的一个计算结果。安全多方计算主要利用到下面四个技术。

①不经意传输:不经意传输协议是一种可保护隐私的双方通信协议,用以保护信息发送者和接收者的隐私。信息发送者从一些待发送的消息中发送一部分给接收者,但不知道发送了哪些信息(对接收者的隐私性);同时,接收者也只能获得那一部分信息,而无法获取其他的任何信息(对发送者的隐私性)。

②秘密共享:在秘密共享系统中,秘密被参与者群体合理分割,只有多于特定个数的参与者合作,才可以恢复或计算出秘密,参与者个数少于特定值则无法获取秘密。攻击者想要获取密钥就必须同时获得一定数量的秘密碎片,这样就能提高系统的安全性;此外,当某些秘密碎片遗失或者损坏时利用其他参与者掌握的信息依然可以获得秘密,提高了系统的可靠性。

③混淆电路:混淆电路可以用于解决安全计算问题,其核心技术是将两方参与的安全计算函数编译成布尔电路形式,然后将真值表加密打乱,从而在不泄露参与者信息的基础上实现电路的正常输


出。相比较于其他安全计算技术,混淆电路具有更高的通用性,因此发展空间很大。

④零知识证明:零知识证明也是安全多方计算的一种常用的技术手段。零知识证明指的是示证者在向验证者证明某项问题时,在不暴露任何有用相关信息的前提下,使验证者相信某个论断是正确的。所以,如果将零知识证明成功的应用于实际,那么就可以很好地保护隐私安全。

3)区块链

区块链是一种去中心化、公开透明的防篡改账本。在中心化情况下,一些企业为了逃避法律责任,往往会篡改数据或者直接删除对自己不利的数据。传统的机械技术(例如硬盘数据恢复、日志查询、IP 追踪等)没有从根本上解决问题,而区块链的出现使得数据具有了不可篡改性,是一种重大突破。同时,区块链技术具有高可靠和高可用性,数据被分布式存储,冗余备份,任何单个节点的崩溃都不会导致整体数据的丢失。

智能合约是基于区块链技术的一种计算机协议,是一个在可信的执行环境下,由计算机语言取代法律语言记录条款,并由程序自动执行的合约。简单来说,智能合约就是传统文本合约的数字化形式,并且可以在脱离人为监控的情况下由程序自动执行。与传统合约相比,智能合约具有三个特点:①开放性。智能合约完全部署在区块链上,所以合约的内容自然是公开透明的。②安全性。由于区块链的特性,智能合约的内容无法被少数人修改。③永久运行。只要区块链存在,智能合约就可以被所有的网络节点共同维护,因而可以一直运行下去。


在隐私计算中,我们可以通过区块链记录所有的数字交互过程,并通过智能合约记录数据建模和分析的过程,实现计算过程的安全可信。

4)差分隐私

差分隐私是针对数据库的隐私泄露问题提出的一种新的隐私定义,是为了解决差分攻击而引入的一种解决隐私保护模型。其原理是在原始的查询结果中添加干扰数据,再将结果返回。差分隐私可以在最大化实现数据查询准确性的前提下,最大限度地减少识别其记录的机会;即在保留统计学特征的前提下,去除个体特征以保护用户隐私。我们可以通过对目标函数、梯度和输出结果添加噪声,实现差分隐私和机器学习的结合。加入干扰后,用户便无法通过查询结果反推出准确的信息,从而达到保护隐私的目的。

3.6.2 基于现代产权理论的数据确权

数据确权即是数据产权的确定,其目的是保护数据权利人对数 据财产的直接控制和支配的权利,本质是在大数据时代中,数据生 产者对于社会资源分配的一种主张。2020 4 9 日,中共中央、 国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据与土地、劳动力、资本、技术等传统要素并列为生产要 素之一,提出要加快培育数据要素市场,包括推进政府数据开发共 享、提升社会数据资源价值,以及加强数据资源整合和安全保护三 方面工作,明确了数据作为一种新的生产要素的地位。

既然数据已经被定义为新的生产要素,那么就必须要深入研究数据确权的机制。清晰的所有权归属是数据资产交易的前提与基础。数据资产的权利主要包括所有权、使用权和收益权等,其中所有权


是核心。一直以来,各国均在探索依靠法律通过“赋权-维权”的传统模式为数据产权保护提供依据,并取得了一定实际成果,例如欧盟最早颁布的《通用数据保护条例》(GDPR)、美国加州的 CCPA,以及我国通过的《中华人民共和国个人信息保护法》等。然而现有的法律规定在实际应用过程中仍面临掣肘,其中,GDPR 被指出可能会从根本上改变大数据分析的方式,使其成为次优且低效的保护方式;同时在国内也面临当事人提起诉讼的案件稀少而且胜诉率极低的问题,数据所有权保护并未随着立法的快速推进而达到预期效果。

在现代产权理论启发下,可以将数据确权的目标等价于最大化数据要素产生的价值。基本思想是合作中形成的产权应归属于对合作后产出贡献最大的一方。与交易成本理论相比,这一理论为垂直整合提供了新思路,回答了整合过程中的“由谁整合”的顺序问题。在数据要素整合过程中,数据要素的产权或者在用户协议之外的剩余控制权,应向起到关键作用的平台倾斜,以此激励平台投入更多资源促进数据市场高效运转。而作为贡献更显著的平台方,也即整合用户数据的一方,只须在交易过程中时向用户支付“赔偿”,即可实现现代产权理论背景下的数据产权交易。

3.6.3 数据定价和公平性

建立数据要素市场的另外一个难点就是数据资产的定价问题。数据的定价,尤其是消费数据的定价,是一个关乎未来数据市场是否公平的关键性问题。人们作为数据的生产者,不停地生产着数据,如果其他利用这些数据赚钱的人可以不支付成本,那么就会导致严重的社会不公平现象。在未来,数据就如同一种原材料,因此,对


其进行合理定价是很必要的。

“没有交易成本的世界,就像没有摩擦力的物理世界一样奇怪”,在借助机器学习对数据实现定价策略时,各方需要协同完成一个学 习任务,因此基于合作博弈的定价策略才能科学地解决问题。一般 来说,数据集(或机器学习中的节点)可以对应合作博弈中的参与 者,机器学习训练产生的模型可以认为是合作收益,那么计算每个 数据集的贡献,就转换成了合理分配利益的问题。我们可以引入夏 普利值(Shapley value)来量化各数据集提供的贡献值。

夏普利值原本是解决博弈论中分配问题的一种方法,现在也可以用来解释机器学习中各特征对结果的贡献度。因具备对称性(合作者的顺序编号不影响合作获利的分配)、有效性(各合作方获利总和等于合作获利)、冗员性(无贡献的成员不参与最终获利的分配)和可加性等优良性质,天然地符合解决实际问题的要求,因而在数据定价中被广泛应用。例如联邦学习中评估每个参与者贡献的问题,可以等价于求解合作博弈中各个参与者的夏普利值问题。基于以上定价规则,可进一步构建数据交易规则。

由于大数据的生产者往往是大众,其产生的经济效益理应被普通大众分享,而非完全被平台公司私有化,否则就会再现“遍身罗绮者,不是养蚕人”的悲剧。除了上述的联邦学习+博弈定价之外,还可以采用数据银行、数据信托和数据 B2Gbusiness to government)等方法对数据收益进行公平分配。

3.6.4 小结

我们正处于新工业革命背景下数字经济发展的大数据时代,数据已经和劳动力、土地、资本和信息等并列为一种新的生产要素,


人类社会、物理世界和信息空间深入融合所形成的三元空间,以前所未有的广度和深度映照人们工作、生活和生产的规律和模式,数据作为重要的经济社会发展资源的价值愈发得到凸显,不断地促进社会飞速发展,并逐渐成为一个社会的核心资产。但同时,大量数据资源的挖掘也成为了一把“双刃剑”,高度信息化对个体隐私安全造成前所未有的破坏,因此,如何平衡数据市场化和数据隐私安全的矛盾成为亟待解决的社会问题。为了解决这个问题,需要我们同时做好隐私技术的研发和数据权力的保护。其中,隐私技术作为保护个人隐私的重要手段,必须不断深化理论研究,优化算法和模型;而数据权力的保护作为数据要素市场化中的核心逻辑,其发展需要我们对数据确权和隐私保护、数据定价和交易、数据收益公平分配等基础问题投入更多的资源和人力,做长期深入的研究。