太神了！首位 AI 程序员上线，居然可以修复自己写的bug

Part.1

Devin真的会抢走你的饭碗吗？

全球首个完全自主的 AI 软件工程师上线，它是来自 Cognition 这家初创公司的产品——Devin，这个名字也随即引爆了科技圈。话说 Devin 有多能干？它能实现端到端的完整项目开发。

也就是说，只需一句指令，Devin 就可以从零构建出一个完整互联网应用，其他工作还可以自主查找并修复代码中的 bug，甚至是训练和微调自己的 AI 模型。

更厉害的是，Devin 还通过了一家 AI 公司的技术面试，并且在 Upwork 上完成了实际工作。这一波操作惹得程序员们惊呼，难道 AI 这么快就要抢走自己的饭碗了吗？

业界大佬们纷纷猜测 Devin 的技术原理，比较一致的意见认为，它涉及到机器学习与深度学习的应用，使其能够从资料库中获取指令，建立并微调大语言模型。

Devin 的表现确实惊艳，但也完全符合大语言模型（Large Language Model，LLM）的发展趋势。所以，与其纠结于自己现在的工作能不能保得住，不如摸透大语言模型的技术本质，思考它能够为工作带来的改进，从而在未来占得先机。

▼点击下方即可购书，限时特惠5折

《大语言模型：基础与前沿》这本书就剖析了 LLM 的技术机理，介绍了前沿研究成果，探讨 LLM 的价值对齐问题，以及环保主题等，有助于我们全面了解 LLM 的原理与应用。

先让我们来展望一下 LLM 的技术发展方向，以及它将会如何改变我们的世界。

Part.2

大语言模型将走向何方

LLM 为什么可以实现对自然语言的理解、生成和推理？这是因为 LLM 基于神经网络的复杂算法，通过对海量数据的训练得到大模型，进而在各种应用场景中展现出惊人的能力。

当前，Transformer 架构在 LLM 中大放异彩，这种架构具有强大的建模能力和并行计算效率。通过多层自注意力机制和位置编码，LLM 可以有效地捕捉文本序列中的长距离依赖关系，从而实现对文本的连贯性和语义理解。

OpenAI 凭借 ChatGPT 一炮而红，随后推出 GPT-4，文生图利器 DALL-E 系列，以及最近刷屏的文生视频 Sora。这些产品中都有用到 Transformer 架构，这一技术也成就了 OpenAI 如今独步天下的江湖地位。

但是在 LLM 的前进之路上，有一个可预见的障碍，就是高质量的数据可能会在 2026 年之前耗尽。这对于依赖海量数据集的 LLM 来说，可能就意味着发展将会变缓。

因此 AI 研究的一个新领域，就是使 LLM 能够产生自己的训练数据，并用它来提高性能。最近的研究表明，LLM 可以通过生成一组问题和答案、过滤最佳输出和微调仔细挑选的答案来进行自我改进。

另外，为了进一步扩展 LLM，一种名为稀疏专家模型（sparse expert model）的新方法在人工智能界受到越来越多的关注。稀疏专家模型的特点是能够只激活必要的参数来处理给定的输入，与密集模型相比，稀疏专家模型的计算能力更强。

所以，LLM 的发展趋势就是智能化程度不断提高，自主生成信息的能力日渐增强，而产生信息所需的能耗却在不断下降。我们的世界将会被重塑，生活工作方式也会革新。

当前 LLM 变得越来越强大和复杂，本书作者熊涛深感有必要向读者全面介绍这些模型的基础知识和前沿发展，帮助读者厘清基本概念，也看到 LLM 的局限，最大限度地获益，并在未来有创造性地突破。

现在，我们开始 LLM 全方位探秘之旅吧。

Part.3

全方位探秘大语言模型

《大语言模型：基础与前沿》不仅深入解读了 LLM 技术本身，还将目光扩展到人类与社会层面，全景式地为我们揭示出 LLM 的应用与发展究竟会怎样改变我们的生活。

本书首先从LLM 的辩论、争议和未来发展方向入手，引出对这一领域的全面认识。接着，探讨语言模型和分词的基础知识，为读者打下扎实的理论基础。

随后对Transformer 架构深入阐释，通过对编码器-解码器架构的剖析，以及外部记忆和推理优化的说明，揭示其在 LLM 中的重要性和应用方法。还详细分析了 LLM 的预训练、目标设定以及上下文学习和微调等关键内容。

本书还涵盖了 LLM 领域的一些前沿进展，包括并行性、稀疏专家混合、检索增强型语言模型，以及根据人类偏好调整语言模型等话题。作者还专门探讨了 LLM 如何帮助减少偏见和有害性，这是人工智能领域一个日益重要的方面。

最后则将注意力转移到视觉语言模型上，探讨了如何将视觉信息与语言模型相结合。探讨了 LLM 对环境的影响，包括能源消耗、温室气体排放等问题，引发人们对于技术发展与可持续发展之间的思考。

总之，那些机械重复、易出错的工作将会被 AI 取代。例如，软件开发将不会是一项高风险的活动，每个人都可以是软件工程师，通过 LLM 开发出稳定可用的软件。其他行业也类似，这就需要我们透彻理解 LLM，找到发轫点，提升效能。

Part.4

结语

从目前来看，我们的许多工作都在被 LLM 取代，例如文本自动生成、智能客服、数据分析与预测等。这预示着 LLM 将会成为维持人类社会运行的基础设施，比 Devin 更智能的 LLM 还会出现，我们现在要做的就是吃透原理，做到运用之妙，存乎一心。

▼点击下方即可购书，限时特惠5折

《大语言模型：基础与前沿》这本书相比市场上同类型书籍，在内容上更具有稀缺性，因为它不仅讲解了当前 LLM 技术的原理与应用，还展望了未来的发展方向，更对其争议也进行了思辨，帮助读者找到技术与现实应用的最佳结合点。

本书最大的特点就是全面性，通过对 LLM 的基础知识、前沿进展和社会影响的解读，为读者提供了系统的认识。同时，本书对 LLM 技术前瞻性的预测，也促使读者思考未来要做出的选择。

对于 LLM 相关的数学原理，书中使用简洁易懂的语言进行描述，作者还精心绘制了大量图表，对一些晦涩的理论和复杂的流程进行形象化的展现。

精彩书摘

精彩图示

最后，我们来纵览一下本书的知识点，直观体会本书内容的独特性。大家可以就自己感兴趣的方向深入探索。

· 第1章概述了 LLM 的辩论、争议和未来发展方向。

· 第2章讨论了语言模型和分词的基础知识。

· 第3章深入阐释了 Transformer 架构。

· 第4章深入分析了 LLM 的预训练，涉及预训练目标和解码策略。

· 第5章探讨了这些模型的上下文学习和轻量级微调。

· 第6章讨论了扩大尺度法则、涌现能力、并行、混合训练和低精度训练，以实现训练更大的模型。

· 第7章介绍稀疏专家模型的概念，实现该模型的路由算法与其他改进措施。

· 第8章介绍检索增强型语言模型，包括预训练检索增强型语言模型、通过高效和精简检索进行问答和多跳推理、检索增强型 Transformer 等知识点。

· 第9章探讨对齐语言模型与人类偏好，说明了基于人类反馈、基于语言反馈、基于监督学习进行微调的方法。

· 第10章探讨了 LLM 如何帮助减少偏见和有害性，提出了检测与减少偏见及有害性的多种办法。

· 第11章将重点转移到视觉语言模型上，探讨如何将视觉信息整合到语言模型中。

· 第12章阐释了 LLM 对环境的影响，并讨论了能源消耗、温室气体排放等问题。

读完这本书，读者将能够系统地了解 LLM 的理论基础、技术原理以及未来趋势。对于从事自然语言处理、人工智能研究和应用的专业人士来说，定能拨开迷雾，把握住 AI 发展的脉络。

太神了！首位 AI 程序员上线，居然可以修复自己写的bug

GPT-4 更强的标志，原来藏在了 logo 里

可以互相交谈的人工智能来了

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

新一代注意力机制Lightning Attention-2：无限序列长度

嫦娥六号发射任务圆满成功

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

“离谱的AI扩图”火了！张张那叫一个出其不意

「代理人战争」！微软、OpenAI 、谷歌、Meta用AI Agent疯狂搞钱

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

外交发言频繁使用“甩锅”，真的合适吗？

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

Kimi大模型：优势明显，但是一场烧钱的游戏

仅6周，“神剑”命中率就从70%降到6%！美国新军援专打俄军电子战

花了2500亿！被迫“憋尿”的出国游，逼疯中国游客

哪一瞬间你突然理解了父亲的难处？网友的回答触动上万读者

牛弹琴:拜登不小心说出美国的小心思日本印度都急眼了

太神了！首位 AI 程序员上线，居然可以修复自己写的bug

GPT-4 更强的标志，原来藏在了 logo 里

可以互相交谈的人工智能来了

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

​新一代注意力机制Lightning Attention-2：无限序列长度

嫦娥六号发射任务圆满成功

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

“离谱的AI扩图”火了！张张那叫一个出其不意

「代理人战争」！微软、OpenAI 、谷歌、Meta用AI Agent疯狂搞钱

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

外交发言频繁使用“甩锅”，真的合适吗？

比LoRA还快50%！一张3090超越全参调优，UIUC联合LMFlow提出LISA

Kimi大模型：优势明显，但是一场烧钱的游戏

仅6周，“神剑”命中率就从70%降到6%！美国新军援专打俄军电子战

花了2500亿！被迫“憋尿”的出国游，逼疯中国游客

哪一瞬间你突然理解了父亲的难处？网友的回答触动上万读者

牛弹琴:拜登不小心说出美国的小心思 日本印度都急眼了

新一代注意力机制Lightning Attention-2：无限序列长度

牛弹琴:拜登不小心说出美国的小心思日本印度都急眼了