Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

WAIC观察:隐私计算加速落地产业,全新的技术标准体系呼之欲出

这几年,人们都在谈论大模型。特别是在 Scaling Law 的指导下,人们寄希望于将更大规模的数据用于训练,以无限提升模型的智能水平。在中国,「数据」作为一种与土地、劳动力、资本、技术并列的生产要素,价值越来越被重视。

近年来,中国数据要素市场化建设的步伐明显提速。让「数据」发挥价值的关键在于不同主体、不同场景下的数据流通复用。数据要素跟传统的生产要素有本质差别,数据的价值具有双面性,业务价值越大,风险成本越高。营造数据可信流通可信环境,则是让数据要素价值充分释放的底层支撑。

图片

在这样的背景下,隐私计算技术的价值逐渐凸显,成为了学界和业界关注的焦点。从概念诞生之日起,隐私计算用了近 40 年从一门前沿理论,延伸到了产业应用之中。但隐私计算能否成为数据要素流通市场的 “基石技术”,还需要扫清一系列障碍。

数据以密态形式流转将成为未来的趋势,传统的隐私计算技术已经不能满足新形势的要求。一方面是传统隐私计算主要关注多方合作场景下的计算安全,缺乏整体性的安全视角,无法满足数据大规模流通过程中新的场景和角色引入带来的额外风险(如运维者风险,加工者风险),其次需要针对不同安全等级的数据采用不同安全分级的技术方案,才能最大程度降低隐私计算的落地成本,因此推动行业标准化变得尤为重要。

在 2024 年世界人工智能大会上,产学研届带来了全新的探索和实践。7 月 5 日,围绕「隐私计算产品通用安全分级」和「个人信息匿名化制度」,国内多家产学研机构联合发布两份白皮书,为数据要素流通行业当下普遍遇到的挑战,提供最新的技术思考和行业实践。

我们需要怎样的隐私计算技术标准体系?

隐私计算是一门综合性的跨学科技术,交叉融合了密码学、人工智能、计算机硬件等众多领域知识,目前已形成多方安全计算、联邦学习、可信执行环境等技术路线。

推动数据要素可信流通,需要技术研发与标准制定通力配合。在隐私计算技术的各个方向中,仍有大量标准制定工作待完成,产学研届普遍认为,「数据跨域管控」「受控匿名化」「通用安全分级」三个方向值得关注。

数据跨域管控的目的是在数据共享和流动的过程中,确保数据不会被未经授权的实体访问或篡改,同时遵守相关的法律法规和隐私政策。作为新型生产要素,数据发挥价值的关键在于不同主体、不同场景下的数据流通复用,但这一流程通常存在「责任主体不清、利益诉求不一致、能力参差不齐、责任链路难追溯」的风险。

受控匿名化通常用于确保数据在使用和分析时,不会泄露个人隐私信息,同时还保持数据的实用性和准确性。我国的《网络安全法》和《个人信息保护法》特别设置了「个人信息匿名化条款」,将匿名化后的个人数据排除在个人信息保护之外,但法律内涵和实施标准却有待厘清。事实上,个人信息匿名化条款存而不用,已经成为数据交易流通和数据要素市场建构的最大瓶颈之一。

此外,在隐私计算中,通用安全分级能帮助确定各类产品最适合的保护措施,从而合理分配安全资源,并确保敏感数据得到适当的保护。当前,虽然针对单一技术路线已经有一些安全分级标准,但是不同技术路线的分级标准完全无法对应,用户无法对所有的产品进行横向比较,这些标准也不适用于新出现的技术路线。

在产学研各界的深度合作下,我们已经看到了一些进展。

国内多家产学研机构,在这场大会达成共识

关于「数据跨域管控」问题,我们可以在 2023 年底出炉的一份白皮书中找到答案。

2023 年底,华东政法大学数据法律研究中心、蚂蚁集团牵头发布《数据跨域管控白皮书》,首次系统阐释了数据跨域管控的实践指引与策略,提出借助密态计算等技术手段,有效管控数据流通利用的风险。

白皮书从技术、法律和管理层面形成了三位一体的数据跨域管控解决方案,包括事前的数据脱敏、加密等数据治理机制,事中针对场景和安全等级界定使用范围等过程管控机制和事后的审计监督机制。

同时,白皮书还提出了与数据流通风险适配的五项管控技术要求,包括数据来源可确认、数据可用不可见、数据可算不可识、数据使用可界定、数据流通可追溯,并指导如何明确数据流通中各主体责任的可行方案,助力构建中国的可信数据流通参考架构。

关于「受控匿名化」和「通用安全分级」这两个命题,我们在前不久的 WAIC 大会上也看到了学界与业界的最新共识:

2024 世界人工智能大会上,国内多家产学研机构联合发布了《隐私计算产品通用安全分级》和《个人信息匿名化制度:技术与法律》两份白皮书。

隐私计算中的安全分级,向来存在多项难点。从产业实践的经验来看,不同技术路线、不同产品形态、不同应用场景下的隐私计算产品所面临的隐私数据泄露风险及安全需求存在巨大差异,在没有统一安全分级标准的情况下,产品开发方及使用方很难评估和衡量安全与性能之间的平衡。

深圳国家金融科技测评中心技术负责人罗丰曾表示,隐私计算技术在金融行业的应用程度比较领先,但规模化落地还存在技术和业务两方面挑战。隐私计算的路线是多样的,针对不同的应用场景需要有不同的安全和性能之间的平衡。从现有的测评和标准来看,在安全分级之前很难去评估一个产品整体的安全性和性能之间的差异性。而 “技术孤岛” 现象客观存在,技术无法互联互通可能导致不同的金融机构,会产生产品选型的分歧。此外,预期效益难以估计及投入成本高,导致很多中小型的金融机构不太有意愿推动隐私计算应用。

一个能适用于更多技术路线的、具备实操指导意义的通用安全分级方案,是隐私计算规模化落地不可缺少的。

基于上述现状,蚂蚁集团、中国通信标准化协会大数据技术标准推进委员会、深圳国家金融科技测评中心、清华大学等国内 16 家机构共同撰写了《隐私计算产品通用安全分级》白皮书。值得一提的是,编写指导组成员包括中国科学院院士、国际密码协会会士王小云,浙江大学计算机科学与技术学院院长、区块链与数据安全全国重点实验室副主任任奎等权威学者。

图片

在这份白皮书中,产学研各方逐一讨论隐私计算安全分级面临的诸多难点,并给出了通用安全分级的设计思路。比如按照攻防效果分级来屏蔽不同技术路线差异,在「可证安全」和「不安全」之间增加一个「抵御已知攻击」的分级水位,引入软件信誉度等更多维度量化「实现安全」,明确所有各类技术特征与安全分级的对应关系。

中国银行隐私计算团队算法工程师石新蕾曾表示,受参与方数据的影响,不同的需求场景对安全的要求存在差异,通过分级可以为业务提供合适的安全保障水平,达到性能与安全的平衡,同时也能分配合理的计算资源,做到成本控制。其次,通过安全分级可以快速识别风险程度,不同的安全程度可以采取相应级别的监管控制措施来降低安全风险。合理的隐私计算产品安全评估标准与评级体系,有助于更好地理解和评估产品安全性,构建数据流通的信任机制,促进行业规范。

如何在个人隐私保护的基础上,实现数据价值开发,是产业界面对的另一个棘手挑战。个人数据是利用价值最高、使用场景最多样、处理措施最成熟的数据,如何在个人隐私保护的基础上实现数据价值开发,推动在不同行业、不同机构之间实现可信、安全的数据共享、开放、交易,是产学研届共同的探索方向。

其中,匿名化技术是个人数据隐私保护的一项重要有效手段。在我国数据基础设施的规划与建设过程中,也将个人信息匿名化相关处理技术与制度规范内容放在了重要位置。而从产业落地的角度,协同推动这一问题解决的关键在于建设、拓展出一套融合法律和技术的基础设施。

为此,基于《网络安全法》、《个人信息保护法》中设置的「个人信息匿名化条款」指导,对外经济贸易大学、大数据技术标准推进委员会和蚂蚁集团共同撰写了《个人信息匿名化制度:技术与法律(2024)》白皮书。

图片

这是学术与产业界首次联合从技术与法律双重维度对个人信息匿名化问题做系统性梳理与阐释、探寻可落地技术方案与数据流通解决路径。

对外经济贸易大学数字经济与法律创新研究中心主任许可表示,匿名化制度的存而不用已经成为当前推动数据流通复用、发挥数据要素乘数效应的重大障碍之一。

当前,个人信息匿名化面临着三重困境:企业既担心匿名化措施难以达到法律要求而无效,又担心标准过高使匿名化信息丧失利用价值;监管机构担心匿名化成为个人信息处理者规避监管的工具;用户担心匿名化是个人信息处理者虚假的承诺。为破解困境,就必须从单一的匿名化法律视角转向复合的 “数据基础设施” 的路径。作为数据要素市场的基础架构,数据基础设施是面向社会的一体化数据汇聚、处理、流通、应用、运营、安全保障服务的新型基础设施,是覆盖硬件、软件、开源协议、标准规范、机制设计等在内的有机整体。基于此,匿名化条款可以拓展为一套融合法律和技术的基础设施,从而推动在不同行业、不同机构之间实现可信、安全的数据共享、开放、交易。

据此,个人信息匿名化制度采用 “事前推定匿名” 与 “事后判定匿名” 相结合的设计。事前 “推定匿名 “通过匿名化技术方案来完成,而事后 “判断匿名” 方式通过解释法律和完善责任来完成。在各种匿名化技术方案中,白皮书特别提出了 “受控匿名化 “措施。针对攻击者获取密钥后经假名化处理的直接标识符仍然有可能被还原的问题,可以让直接标识符采用假名化处理,假名化后的结果仅在受控空间使用,确保不会与密钥关联。针对开放空间中经匿名化技术处理的属性信息仍然可能被关联到个人身份的问题,白皮书提出让属性信息仅在受控空间使用,确保不会与开放空间数据关联。

从「技术标准」到「规模化落地」

在新的技术变革趋势下,构建全新的标准,最终是为了降低新技术在规模化落地时难度和企业成本,让更多市场主体也享受到技术带来的红利。

蚂蚁集团副总裁兼首席技术安全官韦韬曾表示,数据要素的跨域流通,面临 “责任主体不清,利益诉求不一致,能力参差不齐,责任链路难追溯” 等严峻风险,导致传统数据安全的信任基石遭到破坏,因此,数据要素的流通亟需构建全新的技术要求标准与技术方法体系。

面向未来,推动数据要素价值流通是一个系统性工程,需要社会各界协力合作,共同构建新的技术标准体系,让数据价值的流向千行百业。

图片

产业隐私计算世界人工智能大会
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

蚂蚁集团机构

蚂蚁集团是移动支付平台支付宝的母公司,也是全球领先的金融科技开放平台,致力于以科技和创新推动包括金融服务业在内的全球现代服务业的数字化升级,携手合作伙伴为消费者和小微企业提供普惠、绿色、可持续的服务,为世界带来微小而美好的改变。

http://www.antgroup.com
联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~