打开网易新闻 查看更多图片

4月18日,由浙江省科学技术协会指导,未来数商大会组委会主办,浙江省数字经济学会、国脉研究院承办的2024未来数商大会在杭州未来科技城学术交流中心成功举办。大会以“场景突破 乘数而上”为主题,聚焦数据要素市场的制度创新、数据治理、场景应用与生态构建等话题展开研讨。大会首创发布公共数据开放“开元奖”、数商典型应用场景“乘数榜”、首个区级数据要素生态指数,共同发起成立数商产业服务联盟,为构建数据要素产业新生态注入活力。

会上,安恒信息隐私计算总经理陶立峰就《数据基础设施应用与实践》为题发表了主旨演讲。以下根据现场演讲内容整理。

各位领导、嘉宾,下午好,我是安恒信息的陶立峰。安恒信息是一家安全公司,但是今天我站在这里,更希望是代表一个服务型的数商,来跟各位朋友做一个数据基础设施的汇报。

我汇报的主题围绕三块内容:一是围绕数据要素市场发展概况,然后是关于数据基础设施的技术和原理,最后是应用和实践。

国家数据局局长去年在数贸会期间,到杭州参观考察了浙江省内数据要素市场的发展现状。安恒信息董事长范渊,在中国数谷做了接待,专门汇报了安恒信息在数据基础设施方面的成果。刘局长在关于数据基础设施的讲话中提到,数据基础设施主要分为六大板块,包括数据的汇聚、处理、流通、应用、运营和安全,今天我就围绕其中的两个板块,即数据流通和数据运营来展开。

在数据流通领域,什么技术是最重要的,也是被大家讨论最多的?显然是隐私计算。“隐私计算”这个词可能大家听说过很多次了,其实隐私计算只是一系列技术的总称,它底下还细分了非常多的技术方向。其中最主流的技术包括了集中式的机密计算技术、分布式的安全多方计算技术和联邦学习技术。除此之外,还有一些特定应用场景下的技术,比如同态加密、差分隐私等等。所有的能够在既保护数据安全,又保护隐私的情况下,能够促进或帮助数据安全高效流通的技术,我们都可以称它为隐私计算技术。

这三个主流的技术有什么区别?最大的区别在于是集中式还是分布式,什么样的情况我们要用集中式呢?如果有一个可以信赖的第三方,比如政府作为可信赖的第三方,集中式的技术毫无疑问是最优解,因为它的计算性能最好,效率最高,通用性最强,可以适配的场景最广泛。什么样的情况要用分布式呢?就是缺乏可信的第三方,在没有可信的第三方的情况下,平台部署在谁哪里都不合适。金融的数据要求不能出域,运营商的数据也要求不能出域,政务数据也不能出域,这时候怎么办?跨行业、跨机构、跨组织的数据需要联合建模,流通共享时,可以用分布式的隐私计算技术。参与方各自部署本地节点,各自的数据都不需要传给对方,但是各自节点之间的数据还能够联合建模、统计和分析。当然,这种方式也有代价,它的代价就是性能效率上较集中式的差不少。

在传统的三大隐私计算基础之上,这两年大模型的推进如火如荼。在隐私计算的机密计算基础之上,我们又做了进一步的探索,能够在机密计算平台上面做行业大模型的训练和推理。为什么需要这个技术呢?因为我们在很多地方都会发现一个问题:比如公共数据授权运营,政府提供了算力中心,提供了数据,授权外部机构去做交通大模型,做医疗大模型,但是授权之后,被授权方拿着这个数据怎么用,就失控了。无法确保被授权方是不是只是去做大模型的训练。所以我们需要新的技术手段对参与到模型训练中的数据提供保护。同时,训练好以后的模型如果要去部署,也要保护模型的安全。比如我们到超算中心部署训练好的大模型,部署了以后,人家把我的模型拿走了怎么办?模型被篡改了怎么办?这个时候机密计算就可以派上用场了。一方面它能够保护训练数据的安全,另一方面能够保护训练出来的模型部署的安全。

以上是围绕数据流通的数据基础设施分享,接下来汇报的是围绕审计监管的数据基础设施分享。

数据流通过程当中,政府还要重点关注数据流通交易的审计和监管,到底数据从哪儿来的,到哪儿去了,中间有没有一些非法数据交易的问题存在?当然,通过数据交易场所场内交易是一种办法,但刚才也有专家讲到,整个场内交易规模甚至不到5%,我们怎么样把剩下95%的场外交易也能够高效地管理起来?就会用到数据合规流通数字证书,有一个好听的名字,叫“数据发票”。这个东西是什么呢?简单汇报一下,“数据发票”把数据流通交易环节分成了交易前、交易中、交易后三大步骤,交易前我们帮助数商做合规的审查;交易中我们把数据流通交易的每一个环节,例如交易数据的哈希值摘要,在区块链上做存证;交易后我们会给有权机构提供配套的稽核工具。就像我们生活当中买了一辆车,住了一个酒店,都会给我们开发票一样,“数据发票”是一种数据流通交易的事后的监管机制,只要数据流通交易过程当中没有发现任何问题,我们甚至都不会察觉到中间还有这些平台帮我们保驾护航。只有出了问题以后,有人举报了,我们能够依托这一平台去追踪溯源到底哪一个环节出了问题。“数据发票”平台去年在中国数谷上已经进行了首次发布。

最后我想就安恒公司在各个地方做的关于数据基础设施的运营与实践给大家做一下详细的汇报。

打开网易新闻 查看更多图片

首先是在杭州的中国数谷,我们是“三数一链”的核心建设单位。“三数一链”是指一个交易场所、一个数联网、一个“数据发票”,以及一个区块链,这是杭州数据要素市场化配置改革的重要实践成果。

这是我们在深圳落地的公共数据授权运营案例。这里面应用了两种隐私计算技术,集中式和分布式隐私计算。一方面,打通政府内部原来没有办法流通的数据,有些部门可能并不一定愿意把原始数据给到政数局。另一方面,把政务数据赋能给社会,赋能给企业。

这个场景主要是面向社会的,效果比较显著。从2023年11月,我们找了一家试点银行,他用公共数据去做业务模型的开发,主要用于风控。短短几个月时间,累计增发了几个亿的贷款,效果还是非常好的。

打开网易新闻 查看更多图片

这是在浙江省某一个县做的公共数据授权运营案例。我们做了很多业务场景的探索,有针对白领的精英白领贷,针对小微企业的普惠小微贷等等。作为一家服务型数商,安恒公司提供了数据流通的基础设施,所有的业务模型都是在原始数据不出域,数据可用不可见的前提下,由模型开发人员在我们平台上做业务模型算法的开发,开发完成之后数据产品,在经过数据提供方审核之后,输出给需求方。整个过程中,原始数据既看不到,也拿不走。因为效果比较好,一家银行试点成功,马上就可以召集更多的来做复制推广。

下一个分享的案例跟社会治理有关,大家都知道,国内的治安相比于国外已经非常非常好了,还有一个比较头痛的地方是反诈,诈骗分子比较多。我们在某一个省会城市,帮助公安做一些反诈业务的探索,我们主要帮助公安打通一些他原来没有办法打通的数据。大家想象一下,作为公安这样强力的机构都有一些难以获得的数据。我们在公安放一个计算节点,在十几家银行各自部署一个计算节点,在运营商同样部署本地节点,通过分布式隐私计算,在数据不能出域的情况下,各家都把数据传到自己的本地计算节点,然后联合各方的数据去做反诈模型。当然,这个模型更多是用于风险的预防,而不是事后的追贷,如果诈骗事件已经事实上发生了,再想把钱要回来是很难的。所以我们能做的更多是提前去预警,提前去防范。

以上是我要分享的全部内容,感谢各位嘉宾的聆听。

来源:安恒信息