一文读懂大模型发展过程！

点击下方“JavaEdge”，选择“设为星标”

第一时间关注技术干货！

免责声明~ 任何文章不要过度深思！万事万物都经不起审视，因为世上没有同样的成长环境，也没有同样的认知水平，更「没有适用于所有人的解决方案」；不要急着评判文章列出的观点，只需代入其中，适度审视一番自己即可，能「跳脱出来从外人的角度看看现在的自己处在什么样的阶段」才不为俗人。怎么想、怎么做，全在乎自己「不断实践中寻找适合自己的大道」

LLM，Large Language Model，大语言模型。为什么叫2.0？因为在大语言模型，也就是LLM出现之前，我们把它归结为1.0时代。那么1.0时代主要的是NLP（自然语言处理）的各类工程，它其实都是一个特点，就是说通用性比较差。那么整个AI领域的终极的圣杯，或者说将来它的一个终极的一个希望做到的，是AGI（Artificial General Intelligence，人工通用智能）。1.0可能是一个单任务的这么一个AI。比如深蓝战胜象棋冠军，他只会下象棋，而且他的下象棋是学习了很多的这个象棋的这个国际象棋的这个套路，他只会干这一个事情，而且你问他别的事情他肯定不知道。

2 LLM的特点

大语言模型的特点是啥？大语言模型，它就是说可以像语言一样跟我们交互，那么通过语言，它其实可以扩展到很多的场景。那么未来呢，可能会从依据大语言这种方式，我们可能会发展出来真的发展出来AGI，所谓的通用智能，也就是跟我们人类一样拥有智慧的这样的一个智能体。那好，那我们1.0我们AI 1.0我们就不做介绍了，那里面其实有很多NLP的相关的东西。

2.0开始介绍，技术层面基本上是一个从点到面的一个过程。那么最早出现的一个技术，是词向量技术，把自然语言的词语，使用向量来表示。向量是一个数学概念，比如猫，这个词在向量空间里面，它可能就表示成这样一个坐标位置。狗可能就跟它有所区别。牛又不一样。所以可理解为，每一个词，它在向量空间里面都有一个唯一坐标，然后就可构成这样的一个词语字典。然后使用这种one-hot的方式来表示，如苹果标注成101这样的坐标。把自然语言，通过数学语言去给它描述出来，而且它是一个坐标，可精准找到它位置。

3 大模型的不足和解决方案

但有问题，它没有办法表达词语和词语之间的这个关系。比如猫1这样一个坐标，和狗这样01一个坐标，之间什么关系呢？不知道的。

第二就是效率不是很高。

后面发展中，在这个词向量的基础上，出现

4 词嵌入（embedding）

也继续叫词向量也可以，就是对语言模型进行预训练。我们通过大量现有文章资料，让我们的这前面这些词向量，它具备语言信息。那通过了一些训练的预训练之后的这个词向量，它在这个向量空间上，它就带上了一些额外的信息，它就会有效提升我们模型的效果。而且在后续的其他任务中间，去做一个迁移。那么这个就是大语言模型的预训练的这个，一个初始的一个原型。

比如猫、狗，通过坐标标注，让它有这种低维向量的这种这种表示。还可有这样语义相似的一个向量空间相近，好比我们认为，比如说猫和狗，通过我们的预训练的这些大量的文章，资料，我们发现猫和狗都同属于宠物。那么有可能这两个坐标点，在向量空间里就是比较接近。比如说我们找宠物的时候，那么在这个向量空间里面，猫和狗就是在宠物这个向量域里面。牛和羊，都属于我们的常用的肉吃的家畜，那可能就是在那个向量域里面。所以呢，我们可以看到词向量，它就是一个地位向量表示，再一个是语义相似的向量空间，相近的这么一个特性。还有一个，它可以迁移学习，把这个任务，迁移到其他任务里面去。深蓝的下象棋例子，就可以把它的技能去迁移啦。

在词嵌入之后出现

5 巨向量和全文向量

根据这个前文信息，去分析下文或根据本文翻译成另一种语言。那么它代表的呢，是一些模型，如：

RNN（Recurrent Neural Network，循环神经网络）
LSTM（Long Short-Term Memory，长短期记忆网络）

它可有效处理这种时序性的，序列数据。"What time is it？"，训练时，它是一层一层的，它第一层这个神经网络，可能先看到"What"，然后"time"，"is"，"it"，看到最后的问号。它会通过这样的一个顺序，去处理这样的一个语句，去做一个上下文的一个理解。它还可以做到一些短时记忆和选择性的遗忘，就是RNN和LSTM，那么它主要应用在像文本生成啊，语音识别啊，图像描述等等。这个时候就是比如说类似RNN和LSTM这样的模型出现的时候呢，它其实已经可以做到我们常见的一些AI识别。

再往后就到理解上下文，就是全文的上下文，如"买什么什么is"这个这个模式理解上下文，这个模式代表作是类似比如说这个BERT这样大模型。到这阶段，已经可完成类似完形填空任务。那它就是根据上下文理解当前的代词，比如说男他女她动物它是什么，完成这个完形填空。那么这个时候就属于所谓的真域训练模型时代开启。

特点

支持并行训练，如说CNN（Convolutional Neural Network，卷积神经网络）这个模型比，就比如说这个"What time is it"，只能一层一层处理，不支持并行训练。必须完成这个事情之后再做下一个事情。

所以呢，它替代RNN和CNN这样神经网络，更强大，可以实现一些类似语义识别。

最后就是OpenAI这GPT（Generative Pre-trained Transformer）出现，这个模型出现为代表，我们就正式进入了这种超大模型和模型统一的时代。从谷歌T5（Text-to-Text Transfer Transformer）这个模型开始的时候，它是引入了的这样的一个模式来训练模型。也就是说，它是把提示词告诉模型，然后把答案训练出来，然后不停的用这样的模式来训练模型。那么当我们在问模型这些问题的时候，其实也是通过，通过提示词，通过prompt的方式来引导它。所以到这个时代的时候呢，那我们以chatgpt为代表，我们发现它的效果非常惊艳。最新的成果就是说，我们的大模型已经支持了多模态，OpenAI开启的这个大模型时代呢，它其实是把这个，一种基于的这种训练模型这种方式提了出来。

整个的大模型的发展，就是一个从点到面的发展过程。最核心也是最早的是基于这个词向量的技术。通过这个不断发展到神经网络，到这种单线的，到并行训练，最后直到超大规模训练集，实现一个大语言模型发展。

很多同学只知道类似Check GPT或者说对国内的一些比较了解，对国外的不太了解，所以在这总结。

从这个发展上的角度来讲的话，那么大模型最早上节讲了它的一个发展，那我们可以从那个成品上面来看。那基本上在2017年左右吧，其实最早所有的大模型其实都是基于谷歌的，这个Transformer技术啊，也就是我们Transformer架构来设计的。那么，大概在2017年左右的时候，谷歌发布了它的T5模型啊，就以T5这个为代表吧，后续不断的具有新的这样大语言模型衍生出来。包括GPT-2、GPT-3、GLM-130B以Facebook为代表的这个开源的LaMa，还有后来的GPT-4以及说这个我们中东的科研机构开发的这个FanCL以及最新的我们的GPT的四的版本，包括多模态模型，还有它最新的大窗口模型啊，都是在最近在更新的。

7 国外与国内大模型

左边这个表格的话，主要是国外的一些比较常见的大模型啊，那右边呢是国内厂商的一些大模型。首先，我们从这个发布时间上可以看一下啊，我们那个整体上来看的话，还是海外的这个大模型，他们的这个时间要比我们要早一些，我们基本上能够叫得上的，或者用的比较多的这些大模型。都是在今年吧，2023年的时候才开始发布，国内还是比国外整个这个技术的积累或者水平啊，或者时间稍微晚。

8 参数与模型能力

那我们先看国外的啊，国外的可能，比如说第一个GPT-2，它大概有15亿的一个参数，那么我们这里讲一下参数是什么？大语言模型的所谓的参数，我们经常听到它的参数。

参数代表了一个模型的复杂程度，参数越大，也就说它的容量空间，它需要的容量空间，它需要的算力也就越大，那相应的它的能力也就越强。那个参数越小，它需要的算力就越小，但是呢，它的能力呢，相对比较弱一些，那么能力的强弱，主要是通过它这个回答，或者是提炼问题的，这么一个能力，我们就可以看出来。

谷歌T5大概有110亿的这么个参数啊，那它的特点就是它可以实现多任务的一个微调，它是开源的。GPT它主要就是OpenAI的，这个GPT-3.5出来之后啊，是市面上大家就是比较震惊的啊，因为它的效果达的非常好，但是我们可以看到它的参数也是非常可怕的，它参数达到了1750亿啊。所以说它的需要的算力是非常多，那可能是之前很多算力的多少倍，那它支持人工的人工反馈的微调。

随后就是Meta公司，就是Facebook，就它也出品了，它OPT的模型。模型大概1750亿啊，那它的底模是英文的，英文训练的底模

底模是什么？

大模型预训练的时候，它有个预训练的过程。那么，预训练的时候需要大量的语料，输入有的如大量用英文材料，那它的底模就是英文的底模，一旦是比如说英文的话，那它可能在它基础上去做英文的一些问题的回答呢，就效果比较好。

LLaMA也叫羊驼

目前比较主流的一个开源框架，开源的模型目前就是开源里面参数比较大，然后呢，效果比较好的，这么一个大模型，就也就说最受欢迎的开源模型之一 GPD-4呢，就是基本上我们从参数上可以看啊，这是最新出的，但是这个它最新的应该参数没有变化，但是底模的数量会比较大。GPT-4我们看到它的参数达到一点八万亿，那号称史上最强啊，那确实它这光这个参数我们就知道它的容量，还有它的算力支持是非常非常非常大的。比如说GPT的话，它的底模里面有有呃有中文语料，所以呢GPT它，因为它大足够大，所以它涵盖了基本上所有的互联网上面的知识，GPT-3.5截止2021年之前互联网知识，4把知识库呢更新到2023年，也就是更新到今年的。所以它涵盖的这个语言种类就比较多。

右边国内，那么国内的我们就简单了解一下国内，首先我们的百川智能啊，这是由这个王小川搞的一个开源模型，那它呢，大概参数是70亿，我们可以对比一下啊，看看它的水平，它大概70亿，所以它大概相当于羊驼的这样一个模型的水平啊，那百度的文心一言呢，就相对比较大了，因为这个百度搞AI搞的还是投入还比较大的啊，所以它的它的参数大概。2600亿啊，而且它的特点是什么？它的中文语料占到了85%，也就是说它大量使用了中文的语料训练，这个也是情有可原啊，百度手里面有大量的这样这样的一个语料数据。

阿里通义千问参数在70到700亿之间，它总体的能力相当于GPT-3，所以我们可以看到国内的还是稍微的差了一点点。

GLM-6B大概60亿的一个参数啊，GLM团队是我们这个清华大学的团队啊。那么，这个目前啊，是国内或者说是甚至是国际上啊，就是100亿以下最强的中文开源模型，在这个100亿这个参数窗口之下呢？效果最好的目前是它，这个我也经常用它啊，它这个确实是一个效果，算是已经很不错了。

然后腾讯的混元，腾讯的混元，它具体参数没有公布，大概是超过千亿啊，那它一出来的话，可能特点就是说它支持多模态。那多模态什么意思呢？就是它不光是有文字文本生成，它还有图像生成啊，这个文到图图到文啊等等就是各种模态的，这样的这样的一个支持。啊，那说明它的底模或者它的预训练会更复杂啊，它不光可能训练文字，还可以训练图片，然后貌似是啊，160亿啊。那它呢，可能是支持多插件的啊，这个开源的这个模型。

所以基本上我们看到它各有各的特点，但是国内的话，我们可以看到它们有两大特点，一个就是时间稍微晚一点，基本上到2023年发布，第二个就是说对中文的支持呢，相对的都比海外的这些模型好很多，那么从商用角度，我们我们可以看到有一些模型啊，它其实是有，主要是开源模型啊，它在这个商用这块儿其实是不太理想的，比如说像。像这个LaMa不支持商用的，但GLM非常好的，都是可商用的，包括百川。啊，包括这个这个FanCL啊，这些都是可以商用的。

9 大模型的生态

确实现在是属于一个百模大战，千模大战多模型大战的这么一个局势啊，就是由OpenAI引爆。

Hugging Face，爆脸，它相当于AI界的GitHub。那上面的话，我们很多这个开源模型啊，它会把开源之后的模型在这里做开源，我们在这里可以找到很多很多模型：

所以我们可以看到说整个的这个大模型的这个发展啊，还是非常非常非常的快的生态繁荣

10 清华团队在PupilFace的主页

这是我们刚才讲的，ChatGLM就是清华团队的，他们在PupilFace上面的一个主页。我们可以看到他们的作品，他们的团队。我们看到他们的作品还是非常多的，他们已经创建的LMs（Large Models，大型模型），他们创建的大模型像ChatGLM。啊，这些巴拉巴拉WebGLM 130B等等啊，还有一些相应的一些工具啊，包括说预训练的这些图训练啊的神经网络。https://huggingface.co/THUDM/chatglm3-6b：

所以我们可以看到它的6B（6 billion，60亿参数）啊，6B，32K（可能指的是模型的某种配置或版本），然后包括7B（7 billion，70亿参数），13B（13 billion，130亿参数）。最强的是它的130B（130 billion，1300亿参数），那我们通过这一节的学习啊，我们可以看到就是整个大模型。确实是非常非常多，然后每个模型都有自己的特色。

11 支持商用的开源大模型

ChatGLM/6B/1T/可商用
ChatGLM2/6B/1T/可商用
LLaMA/7B/13B/33B/65B/1T/不可商用
LLaMA2/7B/13B/33B/65B /2T/可商用
BLOOM/1B7/7B1/176B-MT/1.5T/可商用
Baichuan/7B/13B/1.2T/1.4T/可商用
Falcon/7B/40B/1.5T/可商用
Qwen/7B/7B-Chat/2.2T/可商用
Aquila/7B/7B-Chat/可商用

公众号：JavaEdge 专注分享软件开发全生态相关技术文章、视频教程资源、热点资讯等，如果喜欢我的分享，给点一个赞或者 ➕关注都是对我最大的支持。

欢迎长按图片加好友，我会第一时间和你分享软件行业趋势，面试资源，学习途径等等。

添加好友备注【技术群交流】拉你进技术交流群

关注公众号后，在后台私信：

更多教程资源应有尽有，欢迎关注，慢慢获取

一文读懂大模型发展过程！

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

用检索增强生成让大模型更强大，这里有个手把手的Python实现

如何从头开始编写LoRA代码，这有一份教程

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

开源15T tokens！HuggingFace放出规模最大、质量最高预训练数据集

阿里林俊旸：大模型对很多人来说不够用，打造多模态Agent是关键

从零手搓MoE大模型，大神级教程来了

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

外交发言频繁使用“甩锅”，真的合适吗？

华子43+7森林狼掀翻掘金1-0 约基奇32+8+9

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

牛弹琴:拜登不小心说出美国的小心思日本印度都急眼了

陕西一男子花62元买彩票中1.48亿元

你可以骗我，但请注意次数！

网友旅游时买回三只叫花鸡回家发现两只仅有泥没有鸡

一哄而上，打不赢美国高科技

仅6周，“神剑”命中率就从70%降到6%！美国新军援专打俄军电子战

一文读懂大模型发展过程！

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

用检索增强生成让大模型更强大，这里有个手把手的Python实现

如何从头开始编写LoRA代码，这有一份教程

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

开源15T tokens！HuggingFace放出规模最大、质量最高预训练数据集

阿里林俊旸：大模型对很多人来说不够用，打造多模态Agent是关键

从零手搓MoE大模型，大神级教程来了

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

外交发言频繁使用“甩锅”，真的合适吗？

华子43+7森林狼掀翻掘金1-0 约基奇32+8+9

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

牛弹琴:拜登不小心说出美国的小心思 日本印度都急眼了

陕西一男子花62元买彩票中1.48亿元

你可以骗我，但请注意次数！

网友旅游时买回三只叫花鸡 回家发现两只仅有泥没有鸡

一哄而上，打不赢美国高科技

仅6周，“神剑”命中率就从70%降到6%！美国新军援专打俄军电子战

牛弹琴:拜登不小心说出美国的小心思日本印度都急眼了

网友旅游时买回三只叫花鸡回家发现两只仅有泥没有鸡