尹聪颖 HC3i中数新医

2017年08月30日 17:58

HC3i

HC3i导读:

“魔镜魔镜告诉我,谁是世界上最美丽的女人?”今天,童话里皇后的魔镜正在照进现实。随着基因检测技术发展,只需大概75个统计上独立的SNP位点即可唯一确定一个人,所以说基因数据比指纹数据更敏感。当基因检测数据与一些病理数据相遇时很容易匹配到具体个人,这种确认可能会侵犯人类隐私。

来源:HC3i中国数字医疗网/尹聪颖

中美智能医疗大数据探秘系列采访之:加州大学圣地亚哥分校 蒋晓谦、王爽

“魔镜魔镜告诉我,谁是世界上最美丽的女人?”今天,童话里皇后的魔镜正在照进现实。

健康医疗大数据正孕育大市场,带来科技进步或价值转化。与此同时,还有新的挑战随之而来:当把每个人的小数据汇聚在一起时可能会变成一面“魔镜”,告诉“皇后”——你是谁,你在哪儿,你的秘密是什么……

背景:人口统计大数据,让“魔镜”照进现实!

卡内基梅隆大学Latanya Sweeney教授2000年发表的《简单的人口统计往往能识别出人的独特性》报告指出:少数特征的组合常常结合在一起即可唯一地识别某些个体。在基于美国选举人公共注册信息的基础上,87%的美国人基于{5位邮编、性别,出生日期}即有可能被唯一的识别出个人身份;53%的美国人通过{地点、性别、出生日期}可能被唯一的识别出个人身份;在县一级,18%的美国人通过{县、性别、出生日期}可能被唯一的识别出个人身份。

显然,包括上述个人信息的数据字段是不应该被公开的,因为这有可能泄露个人隐私。比如:该研究曾使用麻省总医院的出院数据和选举投票的注册数据进行匹配,最终链接出某麻省议员的住院信息。

来自加州大学圣地亚哥分校的蒋晓谦博士和王爽博士,致力于医疗数据隐私安全研究,对于美国医疗数据隐私敏感度和安全保护十分了解,HC3i就当下健康医疗大数据共享应用以及基因数据涉及的隐私安全保护问题采访了两位专家,找一找破解魔镜监视的“秘籍”。

打开网易新闻 查看更多图片

解析:健康医疗大数据“魔镜”如何看见隐私?

健康医疗大数据在全球快速发展,越来越多的个人数据被“脱敏”后公开,用于精准医学等各类大数据研究。然而,如上述报告所述健康医疗数据的公开或将引出一系列隐私安全问题。

脱敏后分享,隐私就会安全吗?健康医疗大数据时代,大量医疗数据被源源不断采集。人们往往认为,一组医疗数据把名字、身份证信息去掉后就安全了,可以公开使用。然而,当这组数据跟另一组数据连在一起时,可能会完全暴露个人隐私。如果加入基因数据,隐私安全威胁就会更明显。随着基因检测技术发展,只需大概75个统计上独立的SNP位点即可唯一确定一个人,所以说基因数据比指纹数据更敏感。当基因检测数据与一些病理数据相遇时很容易匹配到具体个人,这种确认可能会侵犯人类隐私。

“可怕”的基因联想基因与个人隐私之间的关系无比微妙。美国警方曾经用嫌疑人的侄子用过的一个水杯提取DNA,通过比对确认50年前连环凶杀案罪犯的身份。这一手段运用到医学信息上,如果已知某人的基因就能知道此人是否得过某种疾病。例如,艾滋病人去参加癌症或糖尿病的研究,只提供了自身基因信息不公开其它信息,获得信息的人通过对病人基因在公共数据库里面进行比对,就能够获得其个人信息,进而获得其患有艾滋病的信息,造成了个人隐私风险。

这样的风险存在什么坏处呢?如果被雇主知道雇员是糖尿病患者,可能会因怀疑其能否参加重体力劳动而解雇。如果保险公司通过基因检测知道参保人有较大的重疾可能,就会降低保额,增加保费,甚至拒绝提供保险服务。

基因数据安全危及整个家族包括基因在内的健康医疗数据快速增长,随着相关应用的不断展开,人类隐私安全威胁日益严峻。其中,基因数据关系到的不只是一个人,它关系到整个家族。而且基因数据十分“强健”,即便将基因上某个位点去掉,还是可以通过其它基因来确认。

“我们不会做商业化的基因检测。”两位专家说,商业化的基因测序公司会将数据卖给药厂或其它公司,用于药品研发或其它用途。这种做法不仅会暴露个人隐私,有可能连家族的隐私都会暴露。哈佛做过一项调查,称92%的美国人不愿意公开基因数据,因为子孙后代的信息都有可能会被公开。

上云共享安全隐患多基因数据非常大,一个人的基因测序数据约有300GB,精准医学要做百万人尺度下的基因数据分析,数据量是非常大的。不可能在每个机构或每个医院都建立超级计算中心,因此,美国医疗机构或科研院校把数据放在公有云上,但问题就来了,如果把这些非常敏感的基因数据放在公有云上就会存在很多隐私安全风险,因为公有云里的计算资源是被很多用户共享的,数据在计算和存储的过程中还会存在备份操作,不加保护的数据的安全是无法得到有效的控制的。

秘籍:隐私数据如何躲避“魔镜”困扰

健康医疗大数据的巨大潜力吸引无数医疗机构、科研团体积极探索,一边是数据带来的隐私安全“黑洞”,一边是精准医学打开的未来医疗世界大门,隐私安全保护与数据公开应用能否兼得?推荐方法如下:

去中心化的分布式分析如果多个医疗机构想联合进行医疗或者基因数据的某些分析,其实是不需要直接交换个体数据的,只需要通过交换统计值就能得到想要的结果。通过分享统计值,我们可以有效的降低数据分享过程中的隐私风险。比如学习一个模型需要看某些参数,这些参数代表疾病的高风险性与年龄、性别或其它特征的关系,我们可以把从每个医疗机构内部个体数据得到的统计值整合成一个全局的模型参数,然后把对应的模型分享给研究人员,但训练模型的原始数据并不需要被分享给其他医疗机构或研究人员。

差分隐私如果只是做一些前期探索性研究,那研究者并不需要原始数据,只需要跟原始数据很相像的数据信息即可。具体做法是:在原始的数据上添加噪音,或者先在原始数据上拟合出一个分布来,然后在这个分布的空间里面再抽象出数据来。这个数据会跟原始数据很相像,但是没有任何点能够对应到原始数据上。这样,你可以使用这种数据去做研究,但是无从得知数据本来属于谁。

同态加密如果是基于公有云做数据运算,为提高安全等级可以选择同态加密。同态加密是级别非常高的一项加密手段,通过同态加密可以在加密数据上做加密运算,得到的结果也是加密的,只有授权的用户才能把加密的结果拿到。这样就能既能让用户放心使用公有云资源,又能保护个人隐私等数据安全。“现在基于RLWE的同态加密安全等级非常高,基于目前已知的研究成果, 即使是量子计算实现后都不能破解。在可预见的未来医疗数据应用中,都是非常安全的。”

硬件加密硬件加密是利用英特尔第六代之后的CPU芯片的一个加密区域,有授权的用户方可访问。所有数据在硬件外都是加密的,非授权用户看不到。目前,在圣地亚哥Rady儿童医院、伦敦帝国学院、新加坡基因研究所三国联合开展的川崎病研究项目中,由于三个国家对于基因数据隐私保护的要求不同,项目数据传输,分析是通过硬件加密的方式来实现的。两位教授领导的团队在世界上范围内最先实现在加密硬件上大规模进行带有隐私保护的基因计算研究,基于Intel芯片进行硬件加密满足不同机构,国家的对于基因数据隐私保护的要求。该项工作获得Intel杰出成就奖,并被多个权威学术期刊(包括科学杂志)引用。

展望:风险与价值共存,大数据时代下我的隐私我做主

“道高一尺,魔高一丈。”随着健康医疗大数据应用的深入更多隐私安全挑战正在涌现,需要更加先进的隐私安全保护技术和方法帮助我们应对“魔镜”可能会带来的困扰。因此,美国一方面加强相关数据安全法律建设,另一方面也在积极鼓励细分领域的科技创新。

美国在数据安全方面的法律建设起步较早,1996年公布的HIPAA(HealthInsurance Portability and Accountability Act/1996,PublicLaw 104-19,医疗电子交换法案),公布了个人健康信息的隐私保护标准和实施指南,明确要求医疗数据的安全等级和脱密方式。

此外,美国数据安全研究组织还在推进基因研究、数据安全两大领域人才的跨界交流,以探索更加先进的基因安全保护技术,比如组织“全球基因安全保护竞赛”。作为竞赛联合发起人,两位专家对于全球基因安全保护技术发展深有体会:最初参赛队伍的数据模型因为尺寸不够,根本不能用到基因上,现在各参赛队伍已经能够在成熟的模型上不断提高。自2014年开展至今,全球对于基因安全的意识都在提升,据悉目前全球有超过100个队伍参与其中,包括:斯坦福、MIT、Microsoft、IBM等都有参加。该项竞赛多次被国际权威媒体报道,其中包括Nature News 和GenomeWeb 等。

当然,单纯依赖政策的保护、技术的革新是不够的,未来医疗将是全民主动参与的时代,每个人都是数据的提供者、使用者和受益者,主动提升隐私安全保护意识方可更加有效的保护自己,在健康医疗大数据“魔镜”下收获数据赋予的健康红利,并实现我的隐私我做主。