kaiyun官方注册
您所在的位置: 首页> 其他> 设计应用> 基于差分隐私的数据脱敏技术研究
基于差分隐私的数据脱敏技术研究
网络安全与数据治理
李思慧1,戴明超1,蔡伍洲2
1.武警吉林省总队; 2.武警部队作战勤务局
摘要:随着人工智能和大数据技术的发展,全球数据产业规模和数据储量呈爆发式增长。在挖掘数据价值的同时,确保数据安全已成为亟需解决的关键问题。数据脱敏技术通过预先设定的规则和算法,对敏感数据进行变换,去除数据中的敏感信息,可防止敏感数据被非法访问、获取,又可以减少对整体数据集挖掘利用的影响,实现了保持数据可用性的同时,保护用户的隐私数据。针对神经网络预测模型中的数据隐私保护问题,利用差分隐私技术中的Laplace机制对Adult数据集进行脱敏,并在神经网络预测模型中进行验证,对比原始数据、差分隐私脱敏数据及其他脱敏技术数据生成模型的预测效果,结果表明,经差分隐私技术处理后的数据,既保证了数据隐私,又实现了数据的有效利用。
中图分类号:TP309 文献标识码:ADOI:10.19358/j.issn.2097-1788.2025.02.006
引用格式:李思慧,戴明超,蔡伍洲. 基于差分隐私的数据脱敏技术研究[J].网络安全与数据治理,2025,44(2):39-43.
Research on data desensitization technology based on differential privacy
Li Sihui1, Dai Mingchao1,Cai Wuzhou2
1.Jilin Armed Police Corps; 2.Combat Service Bureau, People′s Armed Police
Abstract:With the development of artificial intelligence and big data technology, the global data industry is experiencing explosive growth in scale and data reserves. Ensuring data security while mining its value has become a critical issue that urgently needs to be solved. Data desensitization technology transforms sensitive data with preset rules and algorithms, removing sensitive information from the data, preventing illegal access and acquisition of sensitive data, and reducing the impact on the overall data set mining and utilization, achieving privacy protection while maintaining data availability.This article addresses the issue of data privacy protection in neural network prediction models. The Laplace mechanism in differential privacy technology is used to desensitize the Adult data set and validated in the neural network prediction model. Comparing the predictive performance of the original data, differential privacysanitized data, and models generated from other desensitization techniques data, the results show that the data processed by differential privacy technology not only ensures data privacy but also achieves effective utilization of the data.
Key words :data desensitization; differential privacy; Laplace mechanism

引言

当前,人工智能、大模型、大数据技术飞速发展,数据是各项技术构建的关键基础资源,全球数据产业正在呈爆发式增长。据国际数据公司(IDC)预测,2018~2025年,全球数据量将从33 ZB猛增至175 ZB,而根据工业和信息化部相关预测,2021~2025年,我国的大数据产业规模将从1.3万亿元突破至3万亿元,数据已然成为推动经济社会发展最重要的基础生产要素之一[1]。数据资源被充分利用的同时,数据安全问题也日益凸显,数据被非法获取事件频频发生,给企业和个人带来了巨大损失。因此,在挖掘数据价值的同时,确保数据安全,已成为亟需解决的关键问题。

传统的数据安全解决方案大多关注于数据的存储和传输,在对数据进行挖掘利用时,仍然需要具有敏感信息的原始数据,数据非法窃取者可通过身份攻击、属性攻击、存在性攻击和概率知识攻击等,推断出个体敏感信息[2]。数据脱敏技术是通过对数据进行一定处理来保护隐私的技术,其目的是在保留输入数据的统计特征以及可用性的同时,保护数据的隐私和安全[3]。差分隐私技术是数据脱敏技术的一种,该技术提供了一种隐私保护方法,旨在向原始数据注入噪声或扰动,实现在保护个体数据隐私的同时,完成对数据的挖掘利用[4]。

差分隐私技术在国外研究较早,且技术日趋成熟。2006年,Dwork等人[5]首次提出了差分隐私保护方法,该方法通过向原始数据添加服从特定分布的噪声,用以保护敏感数据,解决了传统数据匿名脱敏技术无法抵抗背景知识攻击的问题。2016年,Abadi等人[6]提出了具有差分隐私的深度学习算法,分析了差分隐私在深度学习框架内的隐私成本,在保护数据隐私的同时,训练出有效的深度学习模型。2019年,Holohan等人[7]设计了IBM差分隐私库,用于Python编程语言中研究、实验和开发差分隐私应用程序。2023年,Holohan[8]又提出了差分隐私随机数生成器和种子算法,实现了在差分算法和结果中进行测试和错误修复,为差分隐私算法选择提供了有利帮助。

近年来,国内的差分隐私技术研究也取得了丰硕成果。2009年,袁进良[9]设计了统一的差分隐私联邦学习平台,扩展了传统的隐私预算组合定理,实现了随时间不断更新的可用预算,解决了差分隐私的强隐私和联邦系统的高吞吐难兼顾问题。2023年,张连福[10]提出了一种基于同态加密与差分隐私的隐私保护联邦学习方案,利用多种防护措施实现了隐私防护范围覆盖联邦学习全生命周期。同年,张旭[11]提出一种兼顾安全防御和隐私保护的分布式学习系统,该系统实现隐私保护的同时,提升了训练模型的准确性。随着差分隐私技术的不断迭代发展,其在数据隐私保护领域得到越来越多的应用。

本文探讨基于差分隐私的数据脱敏方法,对数据集进行清洗整理后,利用Laplace机制对敏感数据进行处理,利用神经网络模型分别对未脱敏数据和脱敏后的数据进行训练和预测,对比原始数据、差分隐私脱敏数据及其他脱敏技术数据生成模型的预测效果,为神经网络预测模型的数据隐私保护问题提供解决方案。


本文详细内容请下载:

https://www.chinaaet.com/resource/share/2000006341


作者信息:

李思慧1,戴明超1,蔡伍洲2

(1.武警吉林省总队,吉林长春130000;

2.武警部队作战勤务局,北京100000)


Magazine.Subscription.jpg

此内容为AET网站原创,未经授权禁止转载。
Baidu
map