比MoE更有潜力？进化算法融合模型的新路径是否值得一试？

机器之心PRO · 会员通讯 Week 15

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. 比 MoE 更有潜力？进化算法融合模型的新路径是否值得一试？

为何模型融合越来越受关注？Model Merging 是什么？Model Merging、Model Fusion、MoE 都是一回事吗？进化算法+Model Merging 更有前景吗？

2. 先做好 Agent 会比期待 GPT-5 更靠谱吗？

Agent Workflow 是什么？为什么吴恩达要重推 Agent Workflow？Agent Workflow 比 GPT-4 更会写代码吗？Agent Workflow 有哪些做法？

3. 2024 年 MAD 全景报告深度解析

MAD 是什么？2024 MAD 全景包含哪些元素？MAD 近年的资本市场有什么变化？报告关注了哪些重点话题？

...本期完整版通讯含 3 项专题解读 + 27 项本周 AI & Robotics 赛道要事速递，其中技术方面 11 项，国内方面 5 项，国外方面 11项。

本期通讯总计 23999 字，可免费试读至 11 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ①比MoE更有潜力？进化算法融合模型的新路径是否值得一试？

日期：4 月 10 日

事件：近期，包含 Grok-1、Mixtral 8x7B 等模型在内，类似MoE 这种将多个模型组合的模式已成为当下开发LLM的流行方法。

谷歌经典论文《Attention is all you need》原作之一 Llion Jones的创业公司近期发布也发布研究成果，结合Model Merging和进化算法，通过有效组合不同开源模型训练了3个日语LLM，在多个基准上取得了 SOTA 表现，在数学推理和视觉语言任务方面尤为突出。

Model Merging、MoE...模型融合成为开源社区备受关注的新趋势？

1、现阶段，大型语言模型（LLM）取得了快速进展，但因其数千亿参数规模需要大量的计算资源受到限制。近来，开源社区逐渐将方向转向「创建更小但高性能的 LLM」，通过将多个较小的 LLM 混合、合并和堆叠在一起产生复合系统，表现出了比各个部分的总和更强大的涌现行为。

2、谷歌经典论文《Attention is all you need》的作者 David Ha、Llion Jones 所创建的公司 Sakana AI 近期提出了一种自动进化模型合并的算法，通过采用进化算法来有效地发现组合不同开源模型的最佳方法，从而自动创建具有用户指定功能的新基础模型。

① 该方法能够自动生成新的基础模型，且不需要任何基于梯度的训练，因此需要相对较少的计算资源。

② 该方法不仅在参数空间中操作，还在数据流空间中进行优化，允许对模型的权重和推理路径进行调整。

③ 该方法可以发现合并来自不同领域（例如，非英语语言和数学，非英语语言和视觉）的模型的新方法，可能超越传统人类设计策略所能达到的能力。

④ 为测试该方法的有效性，研究者通过该方法构建了能够进行数学推理的日语大语言模型（LLM）和日语视觉语言模型（VLM）。其中，进行数学推理的日语 LLM 在大量日语 LLM 基准上取得了顶级性能，甚至超过了一些 SOTA 70B 参数 LLM。

3、英伟达科学家 Jim Fan 评价该项工作：「基础模型社区几乎完全集中在学习上，但没有把重点放在搜索上。我相信后者在训练（进化算法）和推理（AlphaGo 风格的搜索）阶段都有巨大的潜力。」[1] [2]

4、与此同时，混合模型架构 MoE（Mixture of Experts）近期也备受关注。MoE（Mixture of Experts）是一种混合模型，由多个子模型（即专家）组成，每个子模型都是一个局部模型，专门处理输入空间的一个子集。MoE 的核心思想是使用一个门控网络来决定每个数据应该被哪个模型去训练，从而减轻不同类型样本之间的干扰。

① Mistral AI 前后推出了多个基于 MoE 架构的模型。4 月 10 日，Mistral AI 开源了其 8x22B MOE 架构的模型，模型共有 56 层，48 个注意力头，8 名专家，2 名活跃专家，上下文长度为 65k。

② 去年 12 月，Mistral AI 开源了基于 MoE（Mixture-of-Experts，专家混合）架构的模型 Mixtral 8x7B，其性能达到 Llama 2 70B 和 GPT-3.5 的水平。Mixtral 8x7B 是一个 decoder-only 的模型。前馈模块从 8 组不同的参数中进行选择。在每一层网络中，对于每个 token，路由器网络选择 8 组中的两组（专家），来处理 token 并将其输出累加组合。[3]

Model Merging 是什么？

1、Model Merging （模型合并）是指将多个在特定任务上经过有监督微调（SFT）的模型在参数层面进行整合，从而形成一个统一的融合模型。通俗来说，即将多个 LLM 策略性地结合成一个单一架构。因为不需要额外的训练，成为开发新模型的一种极具成本效益的方法。

2、Model Merging 可以使融合后的模型具备处理多种任务的能力，因为每个单独的 SFT 模型均是在不同的任务上训练的，各自学习到了不同的特征和模式。

① 在多任务学习中，单一的模型被训练来同时处理多个相关或不相关的任务。类似，融合模型能够同时「学会」多种任务，在性能上取得更好的效果，同时具备更强的泛化能力。

3、Model Merging 与传统的迁移学习相似但不同。传统的迁移学习是针对新任务在预训练模型进一步微调，虽然具备提高性能和更快收敛等优点，但生成的模型通常仅限于单个任务。而 Model Merging 致力于通过结合多个预训练模型的知识来创建通用且全面的模型，有可能产生能够同时处理各种任务的模型。[4]

4、Model Merging 常用的几种算法 [4] [5] [6] ：

① Task Vector：向量指示预训练权重空间中提升特定任务性能的方向。通过向量间的算术运算，如加法和减法，来编辑模型，优化性能、减少偏差并整合新信息。

② SLERP：克服了传统加权平均在模型合并中的局限，通过平滑转换参数，保留每个父模型在高维空间的独特特征和曲率。这种方法适用于精细合并两个模型，但不支持多模型合并。

③ TIES：针对传统合并方法中不同模型参数间的干扰问题，TIES 通过最小化参数变化、解决符号冲突和仅合并对齐参数的三步策略，有效减少干扰，特别是符号干扰，从而提升合并模型的整体性能。

④ DARE：关注学习相似模型的参数，通过消除微调模型与基础模型间的微小差异并放大差异，来合并语言模型。这种方法通过修剪和重新缩放参数来增强和多样化模型功能，减少再训练需求，常与任务算术或 TIES 结合使用。

⑤ Frankenmerging：一种不依赖权重合并的方法，能够整合不同架构的模型，通过堆叠不同模型的特定层序列创造新架构。这种方法突破了模型家族的限制，允许从完全不同的模型中创造新的架构，目前仍在探索阶段。

Model Merging、Model Fusion、MoE...都是一回事吗？

「模型融合」这一术语的使用存在着一定程度的混淆和不一致性。「模型融合」虽然被 AI 业内广泛关注和探讨，但其具体的内涵和外延尚未形成统一的标准定义。一般来说，通过结合多个独立的模型或模型的某些部分，来增强模型的泛化能力、稳健性或解释性的技术或方法都可以被称之「模型融合」，如 Model Merging、Model Fusion、MoE（Mixture of Experts）、模型集成等。

1、 Model Merging：在论文《Evolutionary Optimization of Model Merging Recipes》中，Model Merging 是指将多个在特定任务上经过有监督微调（SFT）的模型在参数层面进行整合，从而形成一个统一的融合模型。通俗来说，即将多个 LLM 策略性地结合成一个单一架构。[4]

2、Model Fusion：在论文《Deep Model Fusion: A Survey》中，Model Fusion 是一种新兴技术，将多个深度学习模型的参数或预测结果合并为一个单一模型。

比MoE更有潜力？进化算法融合模型的新路径是否值得一试？

新一代注意力机制Lightning Attention-2：无限序列长度

从零手搓MoE大模型，大神级教程来了

GPT-4只是个超级搜索引擎？哲学家们表示不服

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

iPhone16无线充电或提升至20W

NeurIPS 2023 | 模仿人类举一反三，数据集扩增新范式GIF框架来了

AI信任危机之后，揭秘预训练如何塑造机器的「可信灵魂」

“离谱的AI扩图”火了！张张那叫一个出其不意

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

PyTorch团队重写「分割一切」模型，比原始实现快8倍

更像人脑的新注意力机制，让大模型屏蔽无关信息，准确率提高27%

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

阿里林俊旸：大模型对很多人来说不够用，打造多模态Agent是关键

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

乌军F-16西部升空巡逻，俄军SU-25失去保护被击落

日本宣布造出世界首个6G设备：演示显示比普通5G手机快500倍

比MoE更有潜力？进化算法融合模型的新路径是否值得一试？

​新一代注意力机制Lightning Attention-2：无限序列长度

从零手搓MoE大模型，大神级教程来了

GPT-4只是个超级搜索引擎？哲学家们表示不服

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

iPhone16无线充电或提升至20W

NeurIPS 2023 | 模仿人类举一反三，数据集扩增新范式GIF框架来了

AI信任危机之后，揭秘预训练如何塑造机器的「可信灵魂」

“离谱的AI扩图”火了！张张那叫一个出其不意

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

PyTorch团队重写「分割一切」模型，比原始实现快8倍

更像人脑的新注意力机制，让大模型屏蔽无关信息，准确率提高27%

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

阿里林俊旸：大模型对很多人来说不够用，打造多模态Agent是关键

长文本杀不死RAG:SQL+向量驱动大模型和大数据新范式,MyScale开源

乌军F-16西部升空巡逻，俄军SU-25失去保护被击落

日本宣布造出世界首个6G设备：演示显示比普通5G手机快500倍

新一代注意力机制Lightning Attention-2：无限序列长度