打开网易新闻 查看更多图片

以下为哈尔滨工业大学(深圳)智能计算研究中心陈清财在VINNO DAY活动的现场分享

01

生成式模型:人工智能通用计算范式的形成

可以将当前人工智能的发展阶段归为“一个基于大语言模型所引领的人工智能通用计算范式的时代”。1946年诞生世界上第一台计算机ENIAC,在此基础上发展出冯·诺依曼指令集,后来完善形成冯·诺依曼计算机体系结构,作为通用计算机架构沿用至今。另一方面,1937年,艾伦·麦席森·图灵提出“图灵机”概念,将人的计算行为抽象化为数学逻辑,成为通用计算任务的理论基石。在此基础上,任何任务只要转换成算法,转换到图灵机的范式,计算机就可以处理。除了计算能力,图灵还提出了计算机是否可以具备智力的问题,并设计了 “图灵测试”作为机器智力的评测方法,给计算机的智能化发展提出一个长远目标

距离目标设定过去七十年,现在的ChatGPT能不能通过图灵测试?如果用经典的“图灵测试”为标准,它是通不过的,因为问它任何领域的问题,它都会给出看起来像正确的回答,而这点只有机器人能做到,可以说是反向证明其无法通过,因为太聪明了。从这个意义上来说,ChatGPT的“智力”水平已经超过当时设定的目标。

为什么“图灵测试”是以对话的方式来作为衡量手段呢?因为人类是通过语言承载各个领域的知识,语言是智力表达的通用形式。同时提示我们,人和机器之间最自然的一种交互方式还是应该用自然语言。因而从50年代开始,自然语言的处理就成为人工智能领域非常重要的一个研究方向

经过70多年的发展,自然语言处理终于在大模型上,让我们看到人和计算机能够自由对话的希望。一旦语言作为媒介在计算机层面上完全走通,人类将帮助计算机通过语言媒介把真实世界里的各个模态,各个领域串联起来,最终实现真正的通用人工智能。

计算机的通用架构和计算的通用架构已基本形成,但智能的计算范式是不是通过生成式来达成,还要若干年后才能下结论,因为现在还不清楚以后到底会怎么演变。

02

深度学习的兴起

传统神经网络的模型是用后向反馈来学习和传递信息。但在传递过程中随着层数的增加,错误的信号要反过来训练整个模型的时候,无法执行。因为它会涉及一个误差梯度消失的问题,随着层数越多,每一个错误往回去修正模型的能力越弱。这个被称为连接主义学派的神经网络,虽然它的理论基础是模仿大脑的运作方式,但它在很长时期内几乎没有真实应用场景,因而在2006年之前一直没被重视。

直到2006年,Geoff Hinton 提出了“深度置信网络”DEEP Belief Network(DBN)的概念。这个概念对深度学习最大的影响是它的自学习范式,提出“自监督学习”。比如说两层的结构之间,第一层信号传进来从第二层输出的时候,不是直接往下一层走,而是让输出信号返回来,作为输入信号,继续在同一层神经网络里训练。只需将反向的输出和原始输入相比较,直到训练的输出和原始的输入逐步的逼近的时候,再进入下一层网络训练。这完美地解决了传统神经网络随着规模和层数增加,无法训练的问题,这一范式正规的名称叫RBM。

而真正为大家所广泛接受的深度学习模型是“卷积神经网络”(CNN),把多层的,深度的,自监督学习的思想用到二维图像数据。正因为“卷积神经网络”(CNN)在图像处理领域的发展,以及随着ImageNet这类大规模图像标注数据库的出现,使得深度学习模型的能力首先在视觉上实现突破人的能力。

但在真实世界里大量的数据,比如语言信号相互之间,存在时序性关系,前面的输入会影响后面的输出。而CNN只能独立地识别单帧图片包含的信息,如果需要识别时序性的信息,就需要将若干帧图片凑到一起变成一个静态的图片输入。因此输入信息的长度必须固定,使得对时序的描述受到限制。

为了解决时序性的问题,人们将“循环神经网络”(RNN)的思想与深度学习机制相结合。以传统的神经网络为基础,不同的是当第一个词语输入进来的时候,它所有隐藏层的输出都暂时存起来。当第二个信号输入的时候,将暂存的第一个信号的隐藏层输出联合第二个信号的输入,作为整个网络的输入,再放进去推理得到第二个节点的输出,以此类推。

从RNN的计算方式可以看到,它必须从第一个词语开始依次去进行预测,并行性差,导致计算效率非常低。同时,当序列增长后,从最后一个节点把误差传回来的时候,也会面对梯度消失的问题。为解决这个问题,又提出了LSTM,下文再作介绍。可以说,DBN、CNN、RNN三大基本结构奠定了深度学习的基础。

03

基于深度学习的自然语言处理技术

让人和机器能够自由的对话是自然语言处理研究的终极目标,而其核心问题则是“语言作为一种符号在计算机里面到底怎么表示和计算?”比如“计算机”和“电脑”,两个词语是不是同一个概念?从符号上来讲,如果按视觉的计算方式算相似度行不通,因为这两个词语没有一个字是重复的。但在生活中,电脑和计算机基本上是等同的。计算机怎么去区分?这一直是自然语言处理的核心问题。每一次语言表示模型的突破,就带领着自然语言处理进入到一个新的阶段。

回顾整个自然语言处理的三个阶段,第一个是符号主义阶段:知识都可以用符号表示,认知的过程就是符号系统在规则和推理下的计算过程。直到今天大家还会把语言按符号研究,研究它们各种各样的关系和约束。比如说“把”字的三种用法,“的”字的五种用法等等。以前自然语言处理,是为语言学家服务,所以即使到了中间符号+统计的时代,自然语言处理很多的概念都是受到整个符号主义的影响。80年代以后,进入第二阶段,语言统计的方式来构建表示体系,比如传统搜索引擎,它的核心其实就是统计。但是基于统计的方法解决信息输入还可以,如果进一步想做语言的生成,语言的理解,就像机器翻译、自动文摘等等这样的任务时,就面临非常大的困难和挑战。因为统计的方法还是没有从根本上解决语义的连续性问题。

直到第三个阶段,把深度神经网络引入到自然语言处理。2013年,CBOW词语的分布式表示的提出,首先解决词义稠密分布式表示的问题,是用神经网络计算保持词语语义连续性的表示方法。将词语转化成词向量有广泛用途,比如现在的知识增强,基于大模型的知识检索等,都是用向量数据库去管理大模型,管理知识。从2013年词语的表示学习方法提出以后,自然语言处理技术就像插上翅膀一样飞速发展。

前面我们讲,循环神经网络也是一个非常好的描述自然语言的模型。但在没有把每个词向量化之前就没办法用循环神经网络描述。但是现在可以把每个词向量化以后,就发现可以用循环神经网络来描述语言。同时,LSTM的提出除了解决梯度消失的问题,还带来语言的生成能力。因为它是表示一个序列,可以用序列前面的词语预测后面的,这就意味着输入一个起始信号可以生成下一个词,有下一个词我可以生成再下一个词,整个序列就可以生成。谷歌用这个模型做机器翻译,开始输入一个英文的序列,训练模型输出一个中文的序列,到2017年的时候就已经可以做一百多种语言的机器翻译。

04

大模型的发展:能力与边界

LSTM让我们进入语言生成的这个时代。但LSTM有一个问题,就是它的训练并行化能力差,就导致即使有算力,速度也提升不起来。在这种情况下,谷歌的团队提出Transformer的概念。其实Transformer并不是一个特别复杂的结构,恰恰是前面的CNN和LSTM的简化模型,它用几层简单神经网络的拼接,加上一个注意力机制。可以认为是对输出进行加权,再作为输入给到下一层。它既可以对序列进行建模,同时也具备很高的并行化能力。Transformer最大的特点就是快,它的运算时间是原来的千分之一。这就意味原来训练一个LSTM的模型现在可以训练1000个Transformer。

在Transformer的基础上,推出两个模型,一个是谷歌提出的BERT,另一个是OpenAI提出的GPT。BERT是一个双向模型,比如输入“计算机软件开发”,预测“软件”这个词语,把“计算机”和“开发”这两个词语一起输入到模型里,上一个词“计算机”对下一个词有约束,下一个词“开发”对上一个词也有约束。因为用上文和下文约束,所以中间的输出结果更准确,它的推理能力更强。

第二个模型GPT和BERT从结构上看,唯一的不同是GPT是单向传递的,只用到上一个词约束下一个词,也就是只用序列前面的信息进行预测。这个差别导致GPT当时在下游任务训练的时候,性能超不过BERT,于是GPT就被大家忽视了。

两者的逻辑只有细微的差别,但导致BERT无法直接生成信息,而GPT一开始就是朝着生成信息的目标去的,这是它的远见之处。GPT目标不在于当前的性能,而在于构建一个通用的,能够生成序列的模型。

当然,GPT也是逐步演进到当前的形态。GPT 1推出的时候,模型参数跟BERT不相上下。为了进一步提升性能,Open AI给GPT扩大10倍规模,投入更庞大的数据,迭代到GPT 2。GPT 2的语言生成的能力有了很好的提升,比如提出一个问题,然后机器人用生成的方式回答问题。甚至有机器人没有见过的问题,用几个样例去教它,所谓的小样本学习。GPT 2的小样本学习能力比GPT1有了很好的提升,但如果中间没有微软的介入,估计GPT2也会停滞,因为GPT3投入百倍参数进行模型训练,这个资源成本超出一家创业公司的承担能力。

到了GPT 3,语言生成能力已经很强,但是语言能力不可控,比如说给它一篇文章,让它生成摘要,但是生成的文本很长,有两个方式进行调整,一种方式是重新给它指令,把这个文章重新给它,让它再次生成,这是单轮对话的方式;另一种方式是能够不用重新输入前面的文本,只是告诉它说,目前的输出的太长,能不能短一点?如果它能听懂并且按照指令重新执行,生成一个更短的摘要,这就是人的交互的方式。所以从GPT 3到ChatGPT是一个非常自然的演进。目前,Chat GPT具备自主学习能力、小样本学习能力、反馈学习能力以及复杂推理能力。但它面临两个最大的问题,一个是准确性,第二个是确定性,也一直是当前大模型要应用到各个领域必须解决的问题。

05

未来的发展:多模态、知识融合、甲方大模型

大模型带来通用人工智能向前迈进,下一步应该朝着像人一样地思考和行动方向发展。像人一样思考和行动不光是语言,还有行动还有感知周围的各种信息。大模型已经用15万亿tokens的数据规模训练Llama3,但人在很多方面依然无法被替代,因为人类接收信息是多模态的。每一天从视觉、听觉、触觉得到的信息一点都不比大模型接收的少。

因而未来通用人工智能的发展必然是走向多模态。这是一个毋庸置疑的趋势。如谷歌的Gmini等多模态理解模型,是为机器人走到生活中做准备,如果有一天机器人开始走到我们生活中自己观察环境与自然、自己学习总结规律,则标志着通用人工智能真正到来。

同时,实现真正的通用人工智能在领域的应用,还要解决两个关键问题,一个是准确性,一个是确定性。它需要一个框架,这个框架是把整个世界放到一个知识的体系里面去,让它依据框架知道你说的对还是不对,所以未来知识的融合一定是大模型推理和领域应用非常重要的一个任务。

从通用智能(AIGC)、领域智能(ADI)、企业智能(AEI)、业务智能(ATI)的未来发展中有很多的机会,比如“甲方”大模型,能够在某些领域任务上超过Chat GPT 4,又不会增加很多本地化部署成本,在通用语言能力的加持下,能够更好地解决问题,这是我们需要的企业大模型。逐渐的,人们会有一个共识是,大模型会加速原来在某些行业中有很好积累的人或者企业更快地将人工智能融入相应行业,加速提高工作效率。