打开网易新闻 查看更多图片

深度学习的「隐痛」,AI 产业的「困局」。

作者 | 李雨晨

“几乎所有的AI企业都没有赚到钱,而根源问题在于人工智能技术本身的缺陷——数据与算法的不安全性。”

对于目前AI企业的生存困境,清华大学人工智能研究院院长张钹院士的这番话很直接。

张钹院士向雷锋网AI掘金志说到,在AI技术驱动的产业中,全球前40个独角兽企业遍布了所有的领域,估值70亿到500亿之间。

然而,这些独角兽都面临的问题在于 :估值极高、销量极小,一家100亿估值的企业,其销售额不到一个亿。

这不是国内知名学者第一次直陈AI产业的问题。事实上,深度学习的不可解释等“原生性”的问题,在目前看来,仍然没有很好的解决办法。

同时,一系列事件让人脸识别应用在一路奔驰后又急速刹车,也让数据隐私和数据安全问题愈加急迫。

如果不解决数据安全和隐私保护的问题,AI企业赋能产业的未来,也必然囿于原地。

诸多的AI企业,困在了“数据和算法”里。

深度学习的「阿喀琉斯之踵」

当前,AI基础设施建设的重心集中在数据平台、算力平台上,主要为各类AI解决方案提供基本的运算条件,为AI提供基础生产力,相当于是解决了AI的温饱问题。

在这些基础设施的支撑下,数据和算力的快速增长作为“外部驱动力”,带动了AI产业在包括人脸识别、语音识别等领域的一波浪潮,驱动AI产业“第一增长曲线”的出现。

但是,传统行业由于场景复杂和隐私保护等限制,真正可以使用数据往往并不充足,同时算力的增长也解决不了算法能力上限的问题。

深度学习发展到今天,一个核心特征是神经网络模型变得越来越复杂,训练集越来越大。

例如,今年最火爆的AI机器是GPT-3。

GPT-3的网络层数可以达到96层,参数可以到1750亿,模型大小700G。经过了将近0.5万亿个单词的预训练,在不进行微调的情况下,GPT-3可以在多个NLP基准上达到最先进的性能。

张钹院士表示,深度学习的强大之处在于,在参数化的神经网络里,工程人员可以实现任何复杂的变换。

“换句话说,任何一个图像、文本输进去,都可以用参数化的神经网络将其变成所需要的结果。不管多么复杂,因为这是一个通用的函数映射。”

但是,数据与算法不安全性,就像是深度学习这项技术的阿喀琉斯之踵。

张钹院士表示,算法不安全的原因主要有三点:特征(伪语义)——语义空间映射是多对一;语义空间不是距离空间,是离散的层次空间;缺少语义的基于条件概率建模的“黑箱”学习方法;

而这三点原因也决定了AI模型的推广能力很差。

“马跟石头的语义距离很远,但是在形式空间里的距离又很近,形式空间里做出来的区别,不能保证在语义空间是安全的。这就是为什么AI模型非常容易受到干扰的攻击。这也就造成现在企业为什么难以做大做强,必须扩大应用产品的安全性和鲁棒性。”

RealAI联合创始人刘荔园向AI掘金志表示,AI的可靠性、安全性不高带来的深层次问题在于无法应用到关键场景中的核心问题上,核心决策问题,一定对AI的这些要素要求非常高。

她认为,用户并不是需要一个工程化的机器学习建模平台,而是不管有没有这个平台,都能知道业务可解释的点在哪里,保证模型上线之后是可控的。这是RealAI选择切入的市场。

因此,RealAI想要解决的是各个行业的核心——“决策”问题,而要解决这样的问题,不单是需要提供算法能力,同时还有AI应用可控方面的因素共同支撑。

这也就是清华人工智能研究院提出“第三代人工智能”的出发点。

打开网易新闻 查看更多图片

在2018年的CCF-GAIR峰会上,张钹院士就提出,今后发展的方向是把第一代人工智能知识驱动的方法和第二代人工智能数据驱动的方法结合起来,发展安全、可信、可靠和可扩展的人工智能技术,从而推动人工智能的创新应用。

从这个角度来说,第三代人工智能技术体系,包括了贝叶斯深度学习、可解释机器学习、AI安全对抗攻防、新一代知识图谱、隐私保护机器学习等技术。

就以贝叶斯深度学习为例,通过对变量之间的关系及神经网络参数进行概率建模,将数据和预测结果中天然存在的不确定性纳入算法,从而实现可靠、可解释的AI。

清华大学人工智能研究院基础理论研究中心主任朱军教授评价到,它(贝叶斯深度学习)既有贝叶斯本身的可解释性,可以从少量的数据里边来学习;另外又有深度学习非常强大的拟合能力。

地平线机器人创始人兼CEO余凯也曾表示,深度神经网络其实更加适合做感知,而贝叶斯理论的核心是推理,只有从感知到推理才能到决策。

因此,未来的AI发展需要拓宽“数据”和“算力”之外的维度,在相同的数据、算力条件下,更好的支撑AI赋能行业的深度应用,打开AI产业化全新的市场空间。

搭建AI的原生基础设施

近日,由清华大学人工智能研究院、北京智源人工智能研究院、瑞莱智慧联合主办的“2020第三代人工智能产业论坛暨瑞莱智慧RealAI战略发布会”在北京召开。

本次战略发布会上,隐私保护机器学习平台RealSecure和人工智能安全平台RealSafe2.0版本相继发布,而发布这两款产品的公司——瑞莱智慧RealAI,则是一家从清华园里走出来的AI企业。

瑞莱智慧CEO田天是清华大学计算机系博士,曾获评西贝尔学者,清华大学特等奖学金,为计算机系十余年间唯一研究生获奖者。

他向AI掘金志表示,在应用中碰到技术难题时,我们不是见一个解决一个,修修补补;而是发现一个问题就看到一类问题,并通过底层技术框架、平台的突破,帮助产业进行升级。

从全行业内来看,RealAI的出身和这种“平台化”打法,有些类似于国内的商汤:

2001年,商汤创始人汤晓鸥教授一手建立了香港中文大学多媒体实验室,深入探索计算机视觉领域的研究工作,这间实验室的初创团队就是成立商汤科技的前身。

RealAI则是依托清华大学人工智能研究院设立的人工智能企业,由清华大学人工智能研究院院长张钹院士、清华大学人工智能研究院基础理论研究中心主任朱军教授共同担任首席科学家。

从研发背景来看,两者都拥有国内最顶尖的技术、人才资源。

“学者型”特质的公司强在科研和技术能力,可以直接定位到AI产业发展的最前沿,而这类公司的最终目标是实现平台型产品的AI赋能,一旦成功,想象空间巨大。

但是,除了“学者型”气质浓厚的创业公司,AI行业里还有诸多“接地气”的传统厂商。

田天认为,渠道占优的行业厂商,是在传统解决方案的基础上加上一部分AI进行升级改造,进而快速实领域内的增量式提升。

以安防行业为例,无论是传统的安防企业诸如海康威视、大华股份,还是人工智能初创企业商汤、旷视等都在加大AI安防领域的投入。

然而,如果AI能力不强或者只是实现一些“同质化”的浅层应用,在红海市场中会面临激烈的竞争。

此外,AI在行业里落地,一大困难在于“应用场景的碎片化”,最终容易让创业公司沦为一个个的“项目制”公司,导致运营成本高居不下,难以实现技术和产品的高“复用性”。

田天认为,正如社交领域的“微信”,电商领域的“淘宝”,平台型公司如果能选择一个好的方向,满足产业价值非常高的功能点,推广成本被摊薄后,成长速度会比聚焦在某个领域的公司更快。

但是,走这条路线的公司,具备较长的布局周期和极强的技术和资源粘性,这对于一般的创业团队来说,是一个不小的挑战。

两款新平台:数据安全与算法安全

RealAI在这次发布会上共发布了两款新品,还是从数据安全和算法安全两方面入手。

首先是,隐私保护机器学习平台RealSecure。

隐私保护机器学习平台:从“雕版印刷”到“活字印刷”

数据安全主要涉及两方面:一是要解决隐私保护的问题,二是解决数据所有权的问题。

从实现第三代人工智能的思路出发,企业需要用更好的方法打通数据,保证数据隐私安全前提下最大化的挖掘数据价值。

这个过程中,受保护的、可用不可见的数据交互非常重要。

以安防为例,最为核心的痛点有二:其一,数据不够多元,且异常封闭;其二,缺乏优质数据,算法难破瓶颈。

一方面,AI在安防行业的探索才刚刚开始;另一方面,做好AI所必须的数据养料有限且质量较差,不同数据源之间存在难以打破的壁垒。

除了少数几家拥有海量用户、具备产品和服务优势的企业外,大多数中小型AI安防公司难以以一种合理、合法的方式跨越AI落地的数据鸿沟,或者需要付出巨大的成本来解决这一问题。

同时,随着大数据的发展,重视数据隐私和安全已经成为一种世界性的趋势,一系列条例的出台更是加剧了数据获取的难度,这也给AI的落地应用带来了前所未有的挑战。

早在2016年,谷歌就提出了联邦学习的概念,可以实现“数据可用不可见”。

近几年,在产学研的联合推动下,国内外诸多科技巨头,均已开始搭建联邦学习的研究与应用团队。

国内也出现联邦学习、共享智能、知识联邦、联邦智能和异步联邦学习等多个相关研究方向,RealAI所提出隐私保护机器学习与其同属一类技术范畴,但更强调隐私保护属性。

不同于传统机器学习,隐私保护机器学习是分布式、密码学、人工智能三个领域的结合,这就意味着,企业想要做隐私保护机器学习,之前搭建起来的人工智能团队、经验等方法论不能直接拿来复用,需要重新搭建隐私保护机器学习体系下的团队与方法论。

田天表示,重新堆人力将原有机器学习代码一点点的改写成联邦学习代码,这种方式显然并不落地,可落地的联邦学习平台,必须是与原有机器学习生态一脉相承的。

而“一脉相承”有两层含义:

一是算法的一脉相承,指机器学习算法与隐私保护机器学习算法应是继承关系,而非完全重构的关系,原有的AI算法积累,可以通过平台自动实现隐私保护化,实现两大生态的统一。

二是应用的一脉相承,建模使用上需要符合原有数据科学家的建模流程,交互方式上既能支持UI的业务级一键建模,还可以支持以jupyter的形式建模,大幅度提高应用灵活度,让数据科学家能够以最熟悉的方式使用联邦学习。

田天说到,数据科学家还是数据科学家,本地怎么建模、隐私保护就怎样建模,分布式、加密的工作全部一键自动完成。

这也是RealAI推出隐私保护机器学习平台RealSecure(RSC)的两点考虑。

据AI掘金志了解,这款平台是业内首款隐私保护AI编译器。

以底层数据流图的视角揭示机器学习算法与对应分布式隐私保护机器学习算法的联系,通过“算子”组合将两端的生态打通,解决企业搭建隐私保护生态面临着的性能差、易用性差、黑盒协议等诸多难题。

如何理解这里定位的“编译器”?

田天解释道,在与传统处理方式相比,RSC能够将机器学习算法一键编译成隐私保护机器学习算法。

“如果说此前的改写方式像‘雕版印刷’一样,RSC则实现了‘活字印刷’,将模型代码解构到‘算子’级别,通过算子的灵活组合来适配各种各样的机器学习算法,摆脱重复改写的繁琐工作,实现灵活‘制版’。”

据AI掘金志了解,在底层编译的加持,以及融合密码技术与算法的优化,RSC能够实现性能的大幅提升。

比如,在某实际风控场景中,RSC模型训练相比某主流国产开源框架性能提升40倍,耗时从4小时40分钟缩减至6分钟。

人工智能安全平台:AI算法的“杀毒软件”

现在,AI应用随处可见。目前市面上的手机均不同程度地配备了人脸识别方案;在公共场所,地方政府也已经部署了人脸识别摄像头,用于嫌疑犯追踪。

最出名的莫过于“张学友的演唱会”,在2018年,张学友演唱会上就累计拿下了近80名违法犯罪分子。

但是,随着人工智能规模化应用加速,其面临的安全风险也日益凸显出来。

去年,RealAI就实现了通过一副印有特殊纹理图案的眼镜,解锁了他人的手机;针对安防监控的场景,通过穿上印有特殊纹理图案的衣服,就能逃过人体检测算法实现隐身。

田天表示,目前,最广泛使用的深度学习技术,是通过查看数据集中许多的示例进行学习从而建立出模型的。与人类不同,深度学习模型没有可以利用的基础知识,它们的全部知识完全取决于训练的数据。

打开网易新闻 查看更多图片

当数据集中的数据被攻击者有意的操纵,植入秘密的后门时,模型就会学习到后门中的特征,比如图片中的向日葵。那么在实际运行中时,这个向日葵就会触发模型出错。

解决人工智能安全问题的核心,在于理解为什么人工智能模型学习的模式如此脆弱。

然而,对于广泛使用的最新机器学习算法(例如深度神经网络)是如何学习和工作的,人们了解得很少,即使在今天,它们仍然在许多方面仍是黑盒的。

因此,RealAI推出了首个针对人工智能模型的“杀毒软件”和“防火墙”——RealSafe平台,一方面能够对模型的安全性进行全面检测,另一方面提供多种增强安全性的方案。

在本次发布会上,RealSafe平台迎来2.0升级,在模型安全性检测方面,能针对对抗样本攻击,给出安全评分以及将检测场景从人脸识别拓展到了目标检测、图像分类外。

此外,RealSafe 2.0还增加了模型后门检测功能,能够在不获取模型结构及参数等具体信息的情况下,分辨出仅在特定输入情况才会识别出错平时表现正常的被植入后门的模型。

除了能够对安全性检测以外,平台也提供了安全性提升方案。

通过内置的对抗样本去噪方法,可以帮助用户在人工智能应用中,破坏掉攻击者恶意添加的图像噪声,使模型能够正常运作。

通过内置的对抗样本检测方法,可以帮助用户检测输入数据是否存在恶意添加的图像噪声,避免其进入人工智能系统的业务流程。

通过提供平台自动化生成的、能够使被测模型出错的对抗样本,帮助用户进行对抗训练,训练出更加鲁棒的算法模型。

目前,RealSafe平台已在工信部重大建设项目以及某电网公司落地应用。

RealAI产品副总裁唐家渝表示,未来还将在RealSafe平台中集成更多安全风险的检测能力,包括数据逆向还原风险、成员推理风险、模型窃取等安全风险。

虽然,AI算法界的“杀毒软件”这一说法由RealAI最早提出,但满足类似功能的产品在市面上也并非独此一家。

比如,行业内早有一些人工智能对抗技术的工具包,例如foolbox、IBM的ART以及谷歌的CleverHans。

田天认为,这些公司推出的技术,更多还是停留在学术研究阶段,还没有进入到商业应用的阶段。

“很多学术机构发布的工具,是一种白盒的算法,如果要商用,要去检测某款AI系统的安全性,我们不可能要求对方把所有的源代码都给我们,他们会觉得更不安全。”

因此,人工智能安全平台在提供检测方案的时候必须要具备“黑盒”的检测能力。

数据安全任重道远

360视觉科技总经理邱召强也曾从落地应用上指出数据隐私和安全问题。

在他看来,安全并非只针对软件,而是涉及到整个系统的各个环节:

硬件终端、硬件与服务器的连接和传输、管理平台、应用。

凡是人编的程序,每千行代码中就有 4-6 个漏洞,这些漏洞往往是网络安全的命门,极易被攻击。

智能硬件中,具备算力的终端中有操作系统和大量的电子元器件,比如当内存的算法明文保存,黑客就可远程登录并调试硬件,内存条芯片接口就成为被攻击的入口。

云管端管边的物联网架构造就了万物互联的美好设想,但却忽略了智能硬件在与服务器或云连接与传输过程中,黑客可以通过网络截取数据包,进而破解其中的所有内容。

在管理平台中,黑客同样可以通过软件的反编译查看到软件漏洞并侵入。

技术无法做到完全无罪,当视频监控遍布越广、获取的数据愈多时,如何守好行业底线、公民隐私,是行业时刻需要思考的问题。

人脸数据只是一个缩影。当前,数据作为新型生产要素,已成为信息时代国家重要战略资源,数据安全关系到经济社会发展的方方面面。从数据安全发展趋势看,痛点在加强、需求在加快、动作在加大。

数据隐私和数据安全之路,依然任重道远。