引用格式:李思慧,戴明超,蔡伍洲. 基于差分隐私的数据脱敏技术研究[J].网络安全与数据治理,2025,44(2):39-43.
引言
当前,人工智能、大模型、大数据技术飞速发展,数据是各项技术构建的关键基础资源,全球数据产业正在呈爆发式增长。据国际数据公司(IDC)预测,2018~2025年,全球数据量将从33 ZB猛增至175 ZB,而根据工业和信息化部相关预测,2021~2025年,我国的大数据产业规模将从1.3万亿元突破至3万亿元,数据已然成为推动经济社会发展最重要的基础生产要素之一[1]。数据资源被充分利用的同时,数据安全问题也日益凸显,数据被非法获取事件频频发生,给企业和个人带来了巨大损失。因此,在挖掘数据价值的同时,确保数据安全,已成为亟需解决的关键问题。
传统的数据安全解决方案大多关注于数据的存储和传输,在对数据进行挖掘利用时,仍然需要具有敏感信息的原始数据,数据非法窃取者可通过身份攻击、属性攻击、存在性攻击和概率知识攻击等,推断出个体敏感信息[2]。数据脱敏技术是通过对数据进行一定处理来保护隐私的技术,其目的是在保留输入数据的统计特征以及可用性的同时,保护数据的隐私和安全[3]。差分隐私技术是数据脱敏技术的一种,该技术提供了一种隐私保护方法,旨在向原始数据注入噪声或扰动,实现在保护个体数据隐私的同时,完成对数据的挖掘利用[4]。
差分隐私技术在国外研究较早,且技术日趋成熟。2006年,Dwork等人[5]首次提出了差分隐私保护方法,该方法通过向原始数据添加服从特定分布的噪声,用以保护敏感数据,解决了传统数据匿名脱敏技术无法抵抗背景知识攻击的问题。2016年,Abadi等人[6]提出了具有差分隐私的深度学习算法,分析了差分隐私在深度学习框架内的隐私成本,在保护数据隐私的同时,训练出有效的深度学习模型。2019年,Holohan等人[7]设计了IBM差分隐私库,用于Python编程语言中研究、实验和开发差分隐私应用程序。2023年,Holohan[8]又提出了差分隐私随机数生成器和种子算法,实现了在差分算法和结果中进行测试和错误修复,为差分隐私算法选择提供了有利帮助。
近年来,国内的差分隐私技术研究也取得了丰硕成果。2009年,袁进良[9]设计了统一的差分隐私联邦学习平台,扩展了传统的隐私预算组合定理,实现了随时间不断更新的可用预算,解决了差分隐私的强隐私和联邦系统的高吞吐难兼顾问题。2023年,张连福[10]提出了一种基于同态加密与差分隐私的隐私保护联邦学习方案,利用多种防护措施实现了隐私防护范围覆盖联邦学习全生命周期。同年,张旭[11]提出一种兼顾安全防御和隐私保护的分布式学习系统,该系统实现隐私保护的同时,提升了训练模型的准确性。随着差分隐私技术的不断迭代发展,其在数据隐私保护领域得到越来越多的应用。
本文探讨基于差分隐私的数据脱敏方法,对数据集进行清洗整理后,利用Laplace机制对敏感数据进行处理,利用神经网络模型分别对未脱敏数据和脱敏后的数据进行训练和预测,对比原始数据、差分隐私脱敏数据及其他脱敏技术数据生成模型的预测效果,为神经网络预测模型的数据隐私保护问题提供解决方案。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006341
作者信息:
李思慧1,戴明超1,蔡伍洲2
(1.武警吉林省总队,吉林长春130000;
2.武警部队作战勤务局,北京100000)