打开网易新闻 查看更多图片

今年以来,随着chatGPT持续火爆,“大语言模型”这个名词频频出现在大家的视野。

话说回来,什么是大语言模型?它包含哪些方面?和自然语言处理有何区别?经常和大语言模型一起出现的“AIGC”又指什么?

作为这个赛道的一员,下面我将结合司普科技这些年的积累和经验,来为大家简单介绍下。

什么是大语言模型?

其实我们常说的大语言模型,翻译自专业名词:Large Language Model,简称:LLM。因为目前大家用到的大语言模型远不止一个,所以我们经常还会看到它的复数形式——LLMs。

之所以被称为大语言模型,其实很大程度上源于:它是建立在无标注文本数据上训练的语言模型,而且参与训练的数据集往往非常庞大。

举个例子,此前一鸣惊人的GPT-3就训练了1750亿个参数大型语言模型。而到了GPT-4,训练的模型参数更是达到约1.8万亿,训练数据多达13万亿。

而大语言模型的工作原理也很简单:主要借助深度学习机制,把海量训练数据中的各种语言逻辑、语言组织规律有效提取出来,再借助AI算法,在实际用户需求中,理解或生成自然语言文本。

为了保证更好的输出质量和精度,同时避免生成内容带有“负面色彩”,除了“预训练语言模型”((Pretrained Language Models),往往还会用到“训练打分模型”(Reward Model),对其进行强化学习和打分规则的微调,打分越高的,输出效度和精度越高,也越能满足人们的期待和偏好。

当这整套工作完成,也就有了投喂大量训练数据后,能像人一样,进行高水平对话或创作的人工智能应用。

布局大语言模型要做好哪些?

目前,布局大语言模型赛道的厂商不少,而且聚焦的业务面也越来越广,但进行大语言模型的开发并不简单。

如上面所说,大语言模型底层的运作,离不开预训练和打分模型。其中,预训练语言模型作为核心技术基座,要想模型拥有更强的性能,模型结构和规模、样本数据、算力等都是关键性要素。

以参数规模为例,因为参与训练的数据量,直接影响预训练模型在下游任务中的效果,所以效果较好的大语言模型,参数规模基本超过千亿级(100B)。

比如OpenAI的GPT 4参数规模约为180B,Google旗下LaMDA的参数规模约为137B,PaLM的规模约为540B,DeepMind旗下的Gogher参数规模为280B等。

而完成如此大的数据量训练,对算力和资金的需求极大,所以目前大语言模型底层技术的开发多集中在巨头企业之间,而大型LLM厂商单次的训练成本可能就高达百万甚至千万美元。

为了推动行业发展和生态合作,很多基础性大语言模型实行了开源,加上LangChain等LLM集成工具的出现,依然为大众开发者在大语言模型底层之上进行各类应用的开发创造了便利。

目前,利用通用大模型搭配行业小模型,并根据不同业务场景给到相应的解决方案,是很多应用层布局者的常见做法,由此也衍生出了多模态的大语言模型应用。

大语言模型和自然语言处理有何区别?

作为人工智能技术的重要分支,自然语言处理(NLP)任务早年就火出了圈。

从表面看,大语言模型和自然语言处理都高度聚焦于“语言文本”的处理,都离不开深度学习和神经网络的支持,两者甚至都涉及语音识别、语音合成、语义理解、机器翻译等方面的应用。

但大语言模型在这些领域的应用更广,而且在上下文理解、连续对话、逻辑推理等方面比单纯的自然语言处理,显得更智能、更有优势。

从应用看,自然语言处理主要集中于“从文本到文本的输入输出”,基本是一问一答式。

而大语言模型已经能实现文字、图片、音视频等多模态数据的输出,对话成文、文生图、文生视频等都能轻松实现,人机交互面积更大,通用性也更强。

就此来说,自然语言处理很多还停留于简单理解语言含义后进行“基础对话”,而大语言模型已经能在掌握语言规律的基础上“自由对话”。

所以在谈论两者时,很多人都将大语言模型称为自然语言处理的“奇点”或“拐点”。

什么是AIGC?和大语言模型有何关系?

AIGC翻译自专业名词:Artificial Intelligence Generated Content,简单来说就是“利用人工智能技术来生产内容”。目前,比较有代表性的AI生成内容,就包括文本、图像、音频、视频等。

从表面来看,AIGC其实可以算是大语言模型当下最热门的一大方向。而大语言模型的发展,正是AIGC各项应用得以高速发展的基础和关键。

从技术上看,AIGC的成功,主要得益于GAN、Transformer、Diffusion、CLIP、LLM等基础生成算法模型的不断发展,而它的成功也在极大地推进着内容生产的自动化和智能化进程。

备注:以上首发sipu-tech,仅做分享。