问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

谈谈数据脱敏

发布网友 发布时间:2022-12-23 09:24

我来回答

1个回答

热心网友 时间:2024-11-19 05:50

大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用户的隐私和敏感信息,如用户在酒店的入住纪录,用户支付信息等,这些数据存在可能泄漏的风险。

大数据平台一般通过用户认证,权限管理以及数据加密等技术保证数据的安全,但是这并不能完全从技术上保证数据的安全。

严格的来说,任何有权限访问用户数据的人员,如ETL工程师或是数据分析人员等,均有可能导致数据泄漏的风险。

另一方面,没有访问用户数据权限的人员,也可能有对该数据进行分析挖掘的需求,数据的访问约束大大*的充分挖掘数据价值的范围。

实际生产过程中,应用场景会更加复杂,仅靠类似这样的访问控制,满足不了生产的需要,还需要结合其它的途径,而数据脱敏就是一种有效的方式,既能满足日常生产的需要,又能保护数据安全。

数据脱敏,具体指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。

这样可以使数据本身的安全等级降级,就可以在开发、测试和其它非生产环境以及外包或云计算环境中安全地使用脱敏后的真实数据集。

借助数据脱敏技术,屏蔽敏感信息,并使屏蔽的信息保留其原始数据格式和属性,以确保应用程序可在使用脱敏数据的开发与测试过程中正常运行。

数据脱敏方案作为大数据平台整体数据安全解决方案的重要组成部分,是构建安全可靠的大数据平台必不可少的功能特性。

本文首先分析了数据泄露可能带来的风险,然后详细介绍了数据脱敏技术的理论基础与常用算法,最后介绍了一个基于大数据平台的数据脱敏解决方案。

通常在大数据平台中,数据以结构化的格式存储,每个表有诸多行组成,每行数据有诸多列组成。根据列的数据属性,数据列通常可以分为以下几种类型:

所谓避免隐私数据泄露,是指避免使用数据的人员(数据分析师,BI工程师等)将某行数据识别为某个人的信息。

数据脱敏技术通过对数据进行脱敏,如移除识别列,转换半识别列等方式,使得数据使用人员在保证可对#2(转换后)半识别列,#3敏感信息列以及#4其他列进行数据分析的基础上,在一定程度上保证其无法根据数据反识别用户,达到保证数据安全与最大化挖掘数据价值的平衡。

隐私数据泄露可以分为多种类型,根据不同的类型,通常可以采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险,以及对应不同的数据脱敏算法对数据进行脱敏。一般来说,隐私数据泄露类型包括:

将数据开放给数据分析人员,同时就引入了隐私数据泄露的风险。

在*隐私数据泄露风险在一定范围内的同时,最大化数据分析挖掘的潜力,是数据脱敏技术的最终目标。

目前在隐私数据脱敏领域,有几个不同的模型可以用来从不同角度衡量数据可能存在的隐私数据泄露风险。

K-Anonymity, L-Diversity和T-Closeness均依赖对半标识列进行数据变形处理,使得攻击者无法直接进行属性泄露攻击,常见的数据变形处理方式如下:

此外,K-Anonymity, L-Diversity和T-Closeness约束可能还需要生成干扰数据,敏感数据干扰项的生成策略与方法也是保证K-Anonymity, L-Diversity和T-Closeness的重要条件,在这里篇幅有限,就不过多介绍,请参考引用中的相关论文[4,5,6]。

用户隐私数据保护与挖掘用户数据价值是两个互相冲突的矛盾体,彻底的数据脱敏,需要抹去全部的用户标识信息,使得数据潜在的分析价值大大降低。

另一方面,完全保留用户隐私数据信息,可最大化数据的分析价值,同时导致用户隐私泄露的风险无法控制。

因此大数据脱敏平台的设计目标并不是实现工具算法用来完全抹去全部的用户标识信息,而是包括如下几个目标:

大数据脱敏平台的设计方向一般包括静态大数据脱敏平台和动态大数据脱敏平台,所谓静态和动态之分,主要在于脱敏的时机不同。

大数据平台脱敏技术方案是一个非常有趣的课题,目前业界还没有看到有成熟的方案,鉴于其对数据安全和数据价值的作用,非常值得深入研究。

在数据脱敏方案设计与实施过程中, 我们觉得更重要的还是从特定的应用场景出发进行整体设计,兼顾了数据仓库建设这一重要考量维度。

针对于大数据平台对于数据脱敏的需求,本文分析了数据泄露可能带来的风险,介绍了数据脱敏技术的理论基础与实现方式,同时简单分析了大数据平台的隐私数据脱敏技术方向。

本文讨论的均是基于离线数据的数据脱敏,流式数据的脱敏技术无论是理论基础与具体实践大都还处在摸索的过程中[7],留待以后继续探索。

参见:
大数据与数据脱敏: https://zhuanlan.hu.com/p/20824603
美团数据仓库-数据脱敏: https://tech.meituan.com/data_mask.html
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
李卓彬工作简历 林少明工作简历 广东工业职业技术学院怎么样 郑德涛任职简历 唐新桂个人简历 土地入股的定义 ups快递客服电话24小时 贷款记录在征信保留几年? 安徽徽商城有限公司公司简介 安徽省徽商集团新能源股份有限公司基本情况 大厂也在用的 6种 数据脱敏方案,别做泄密内鬼 个人所得税如何扣法 橄榄核手串上油方法 橄榄核手串上油有什么方法 橄榄油泡手串多久泡透 弹弹堂手游如何分享 弹弹堂手游怎么分享 弹弹堂手游如何发射 弹弹堂手游如何换头像 弹弹堂手游怎么换头像 弹弹堂手游如何蓄力 弹弹堂手游如何强化 电脑开机后就出现F1或F2这种是什么情况? 罗技k380f2一直闪 高铁可以二等座补差价换一等座么 机械键盘锁了f2f3一直闪烁怎么办 股东可以另外注册同类公司吗 新注册的公司作为股东发起新的公司注册有限制吗 上海祁置实业发展有限公司怎么样? 我姓祁:名:永鸿 祁永良这个名字的意思 祁阳县永祁种养专业合作社的拼音怎么读 跨境进口电商的发展历程不包括哪个阶段 小红书基础评价是什么意思 鸡蛋如何放更保鲜 《末日语天》最新txt全集下载 生肉灌肠蒸多长时间 猪生肉灌肠蒸多久 长沙电信手机号怎么显示ip是济南 熊猫管家密码填什么 熊猫管家清理僵尸粉是真的吗 下了熊猫防病毒软件2014用不了,提示某文件找不到用不了... 4只小猪要去旅行,有2辆车,它们可以怎样乘坐?你能想到几种坐车的方法... 老年日常生活保健注意细节ppt 什么叫指令队列和工作原理 宇多田光 光 中文歌词 Brain Holiday歌词 瞿昙寺的建设沿革 瞿昙寺的文物遗存 瞿昙寺壁画中清代补绘的时间 瞿昙寺壁画中清代补绘的时间 瞿昙寺花儿会的活动内容 安徽省宣城市泾县桃花潭镇下辖村委会有哪些? 把赠汪伦改写成350字的作文怎么改?