数据安全与隐私保护 一差分隐私保护 方贤进,教授/博导 Email:xjfang@aust.edu.cn Website:http://star.aust.edu.cn/xjfang
数据安全与隐私保护 ——差分隐私保护 方贤进,教授/博导 Email: xjfang@aust.edu.cn Website: http://star.aust.edu.cn/xjfang
厂 一、隐私保护的挑战
一、隐私保护的挑战
背景 信息技术,包括Mobile Internet,Internetof Thing(IOT),边缘计算(Edge Computing)的飞速发展促进了Bigdata时代的到来。 ■这些数据源自于: Mobile sensor devices(smart phone,camera,RFID reading devices,GPS...) Electronic Commerce Website Social networks services(QQ,WeChat...) Software logs Web surfing Logs of search engineer Mobile payment or electronic-payment -E-mail Medical data or healthcare data
■ 信息技术,包括Mobile Internet,Internet of Thing(IOT),边缘计算(Edge Computing)的飞速发展促进了Bigdata时代的到来。 ■ 这些数据源自于: – Mobile sensor devices(smart phone, camera, RFID reading devices, GPS…) – Electronic Commerce Website – Social networks services(QQ, WeChat…) – Software logs – Web surfing – Logs of search engineer – Mobile payment or electronic-payment – E-mail – Medical data or healthcare data 背景
背景 Source:https: //www.statista.com/statistics/638593/worldwide-data-center-storage-capacity-cloud- vs-traditional/ 3000 2500 190 数据存储 2000 160 100. 1601 0 的单位也 140 140 180 1500 190 从我们熟 420 120 80 150 380 悉 的 350 1000 380 GB,TB到 290 330 240 260 PB,EB, 180 230 400 500 170 360 330 ZB, YB, 150 250 220 170 BB,还有 210 280 340 410 470 0 160 NB,DB 2016 2017 2018 2019 2020· 2021" ● Compute ●Collaboration ●Database/analytics ● ERP and other business apps ●Video streaming ●Social networking ●Search ●Other consumer apps ■ 数据产生价值,没有数据就没有价值。手段:数据统计、分析、推理、数据挖掘、机器学习
Source:https://www.statista.com/statistics/638593/worldwide-data-center-storage-capacity-cloudvs-traditional/ ◼ 数据产生价值,没有数据就没有价值。手段:数据统计、分析、推理、数据挖掘、机器学习 背景 数据存储 的单位也 从我们熟 悉 的 GB,TB 到 PB, EB, ZB, YB, BB, 还有 NB, DB
大数据的产生以及大数据技术(数据统计、分析、挖掘、推荐算法)的发 展,也导致了数据的非法收集、分析与滥用、隐私泄露等问题。 国家近期出台或即将出台关于数据安全方面的法律、法规与国家标准 《中华人民共和国数据安全法》 《中华人民共和国个人信息保护法》 《数据出境安全评估办法(征求意见稿)》 《网络数据安全管理条例(征求意见稿)》 《信息安全技术基因识别数据安全要求》征求意见稿 《信息安全技术声纹识别数据安全要求》征求意见稿 《信息安全技术步态识别数据安全要求》征求意见稿 《信息安全技术汽车采集数据的安全要求》征求意见稿 《汽车采集数据处理安全指南》 《信息安全技术机器学习算法安全评估规范》征求意见稿 Source from全国信息安全标准化技术委员会,htps:/www.tc260.org.cn
■ 大数据的产生以及大数据技术(数据统计、分析、挖掘、推荐算法)的发 展,也导致了数据的非法收集、分析与滥用、隐私泄露等问题。 ■ 国家近期出台或即将出台关于数据安全方面的法律、法规与国家标准 – 《中华人民共和国数据安全法》 – 《中华人民共和国个人信息保护法》 – 《数据出境安全评估办法(征求意见稿)》 – 《网络数据安全管理条例(征求意见稿)》 – 《信息安全技术 基因识别数据安全要求》征求意见稿 – 《信息安全技术 声纹识别数据安全要求》征求意见稿 – 《信息安全技术 步态识别数据安全要求》征求意见稿 – 《信息安全技术 汽车采集数据的安全要求》征求意见稿 – 《汽车采集数据处理安全指南》 – 《信息安全技术 机器学习算法安全评估规范》征求意见稿 – …... Source from 全国信息安全标准化技术委员会,https://www.tc260.org.cn
问题的提出一一个简单的例子 田田田 收集 发布 Medical Record 医疗记录 医院 研究人员 在以上的场景中,如果研究人员要求分享病人的医疗 数据从事科学研究,那么如何保护病人的隐私呢?
问题的提出——一个简单的例子 收集 医疗记录 医院 研究人员 发布 在以上的场景中,如果研究人员要求分享病人的医疗 数据从事科学研究,那么如何保护病人的隐私呢?
一种简单的方法一 匿名化(Anonymization) 病人的医疗数据 Name Birthday Gender ZIP Disease 1967/08/07 男 232001 糖尿病 1965/07/03 男 242000 AIDS 1982/01/04 女 353245 Flu 1967/06/04 男 653214 COVID-19 Rose 1976/10/24 女 342019 肝炎 Birthday Gender ZIP Disease 1967/08/07 男 232001 糖尿病 1965/07/03 男 242000 AIDS 1982/01/04 女 353245 Flu 1967/06/04 男 653214 COVID-19 1976/10/24 女 342019 肝炎
一种简单的方法——匿名化(Anonymization) Name Birthday Gender ZIP Disease 张三 1967/08/07 男 232001 糖尿病 李四 1965/07/03 男 242000 AIDS Alice 1982/01/04 女 353245 Flu Tom 1967/06/04 男 653214 COVID-19 Rose 1976/10/24 女 342019 肝炎 Birthday Gender ZIP Disease 1967/08/07 男 232001 糖尿病 1965/07/03 男 242000 AIDS 1982/01/04 女 353245 Flu 1967/06/04 男 653214 COVID-19 1976/10/24 女 342019 肝炎 病人的医疗数据
数据匿名化(或脱敏)的其他方法 ■ 数据仿真:对数据内容进行仿真,生成格式并且语义正确的高仿数据 ■数据遮蔽:使用特殊字特对数据的遮蔽内容进行替换,破坏数据的可读性 ■随机字符串:对数据进行随机变化,使数据不保留原有的语义、格式 ■ 列关联:保持列与列之间的对应或者运算关系,比如身份证字段和生日、年龄等 ■纵向乱序:保持或者打乱列与列之间的每行数据的对应关系 关联列计算:当列与列之间有运算关系时(比如A+B=C),脱敏后的数据仍然具有 相同的运算关系 ■字典映射:根据特征字典,将符合特征的数据替换为指定的值,比如可以将所有的 张三”统一替换为“李四” 随机映射:根据特征字典,将符合特征的数据进行随机替换,比如可以将所有的 “张三”替换为“李四、王五、赵六”当中的任意一个 ■ k-匿名:通过泛化(Generalization)技术,发布精度较低的数据,使得每条记录至 少与数据表中其他k1条记录具有完全相同的准标识符属性值,从而减少链接攻击 所导致的隐私泄露
■ 数据仿真:对数据内容进行仿真,生成格式并且语义正确的高仿数据 ■ 数据遮蔽:使用特殊字符对数据的遮蔽内容进行替换,破坏数据的可读性 ■ 随机字符串:对数据进行随机变化,使数据不保留原有的语义、格式 ■ 列关联:保持列与列之间的对应或者运算关系,比如身份证字段和生日、年龄等 ■ 纵向乱序:保持或者打乱列与列之间的每行数据的对应关系 ■ 关联列计算:当列与列之间有运算关系时(比如A+B=C),脱敏后的数据仍然具有 相同的运算关系 ■ 字典映射:根据特征字典,将符合特征的数据替换为指定的值,比如可以将所有的 “张三”统一替换为“李四” ■ 随机映射:根据特征字典,将符合特征的数据进行随机替换,比如可以将所有的 “张三”替换为“李四、王五、赵六”当中的任意一个 ■ k-匿名:通过泛化(Generalization)技术,发布精度较低的数据,使得每条记录至 少与数据表中其他 k-1 条记录具有完全相同的准标识符属性值,从而减少链接攻击 所导致的隐私泄露。 数据匿名化(或脱敏)的其他方法
但这些方法不能进行隐私保护一链接攻击 选民基本信息表 Birthday Gender ZIP 匿名化后的病人医疗数据 李四 1965/07/03 男 242000 Birthday Gender ZIP Disease Alice 1982/01/04 女 353245 1967/08/07 男 232001 糖尿病 Tom 1967/06/04 男 653214 1965/07/03 男 242000 AIDS Rose 1976/10/24 女 342019 1982/01/04 女 353245 Flu 1967/06/04 男 653214 COVID-19 1976/10/24 女 342019 肝炎 90年代中期,麻塞诸塞州就曾遭受这样的攻击,当时州长的医疗记录被泄露。后续研究 表明,63%的美国人口有着唯一的组合{出生日期、性别、邮编}。 Ohm P.Broken Promises of Privacy:Responding to the Surprising Failure of Anonymization[J] Social Science Electronic Publishing,2012,57(6):1701-1777
但这些方法不能进行隐私保护——链接攻击 Birthday Gender ZIP Disease 1967/08/07 男 232001 糖尿病 1965/07/03 男 242000 AIDS 1982/01/04 女 353245 Flu 1967/06/04 男 653214 COVID-19 1976/10/24 女 342019 肝炎 name Birthday Gender ZIP 匿名化后的病人医疗数据 李四 1965/07/03 男 242000 Alice 1982/01/04 女 353245 Tom 1967/06/04 男 653214 Rose 1976/10/24 女 342019 选民基本信息表 Ohm P . Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization[J]. Social Science Electronic Publishing, 2012, 57(6):1701-1777. 90年代中期,麻塞诸塞州就曾遭受这样的攻击,当时州长的医疗记录被泄露。后续研究 表明,63%的美国人口有着唯一的组合{出生日期、性别、邮编}
那么,不发布详细的元组数据,而发布粗粒度的 统计数据,则不会导致隐私泄露呢? a original statistical dataset Name HIV Publishing Query interface indicator Tom 0 fn)=the count of the front Jack 1 of n recorders whose HIV Henry 1 indicator are 1. Diego 0 Alice 1 +·”+ 那么,只要知道Alice的record number(假设为k),就可以计算Alice的 HIV indicator是阳性还是阴性,即k)k-l)
那么,不发布详细的元组数据,而发布粗粒度的 统计数据,则不会导致隐私泄露呢? Name HIV indicator Tom 0 Jack 1 Henry 1 Diego 0 Alice 1 …… ……. a original statistical dataset f(n)=the count of the front of n recorders whose HIV indicator are 1. Publishing Query interface 那么,只要知道Alice的record number(假设为k),就可以计算Alice的 HIV indicator是阳性还是阴性,即f(k)-f(k-1)