刚刚，Kimi开源底层推理框架，1小时GitHub揽星1.2k

什么？Kimi底层推理架构刚刚宣布：开！源！了！

你没听错，就是那个承载了Kimi线上80%以上流量的架构。

大约几小时前，月之暗面Kimi联合清华大学等机构，开源了大模型推理架构Mooncake。

根据官方介绍，本次开源将采用分阶段的方式：

逐步开源高性能KVCache多级缓存Mooncake Store的实现，同时针对各类推理引擎和底层存储/传输资源进行兼容。
其中传输引擎Transfer Engine现在已经在GitHub全球开源。

可以看到，Mooncake一经开源，已在GitHub狂揽1.2k star。

其最终开源目标是，为大模型时代打造一种新型高性能内存语义存储的标准接口，并提供参考实现方案。

月之暗面Kimi工程副总裁许欣然表示：

通过与清华大学MADSys实验室紧密合作，我们共同打造了分离式大模型推理架构Mooncake，实现推理资源的极致优化。
Mooncake不仅提升了Kimi的用户体验，降低了成本，还为处理长文本和高并发需求提供了有效的解决方案。
我们相信，通过与产学研机构开源合作，可以推动整个行业向更高效的推理平台方向发展。

实际上，这个项目早在今年6月就已启动，当时已受到业内广泛关注——

大模型推理架构Mooncake

今年6月，月之暗面和清华大学MADSys实验室联合发布了Kimi底层的Mooncake推理系统设计方案。

在这篇名为《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》的论文中，作者详细介绍了Mooncake这种系统架构。

该系统基于以KVCache为中心的PD分离和以存换算架构，大幅度提升了推理吞吐。

具体而言，Mooncake采用以KVCache为中心的解耦架构，将预填充集群与解码集群分离，并充分利用GPU集群中未充分利用的CPU、DRAM和SSD资源，实现KVCache的解耦缓存。

其核心在于以KVCache为中心的调度程序：

在最大化整体有效吞吐量和满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡

当面对流量高峰期时，Mooncake通过早期拒绝策略和预测未来负载的方法，来处理超载问题。

早期拒绝策略（Early Rejection Policy）

简单说，其核心思想是在请求实际开始处理之前，根据当前系统的负载情况预测是否有足够的资源来处理新的请求。

如果预测结果表明系统资源不足以保证请求的及时处理，系统就会在请求到达之前予以拒绝，从而避免了无效的资源占用和不必要的延迟。

预测未来负载（Predicting Future Load）

在Mooncake中，系统需要能够预测在未来一段时间内的负载情况，以便做出更准确的接受或拒绝请求的决策。

如何实现呢？？

通常来说，这种预测会基于当前的请求模式、系统的资源使用情况以及历史数据等信息。

再通过对信息的进一步分析建模，Mooncake就能够估计接下来的请求处理需求，并据此调整其调度策略。

论文实验结果显示，与基线方法相比，Mooncake在某些模拟场景中可以实现高达525%的吞吐量提升，同时遵守SLO（与延迟相关的服务级别目标)。

在实际工作负载下，Mooncake使Kimi能够处理75%以上的请求。

而且据许欣然在其他场合透露：

目前这套系统承载了Kimi线上80%以上的流量。

而现在，为了进一步加速该技术框架的应用与推广，Kimi联合清华大学等机构共同发布开源项目Mooncake。

参与开源的首批阵容包括：

AISoft、阿里云、华为存储、面壁智能、趋境科技等。

可以说，云计算、存储、AI模型玩家等产学研力量都聚齐了。

据悉，Mooncake开源项目从论文延伸，以超大规模KVCache缓存池为中心，通过以存换算的创新理念大幅度减少算力开销，显著提升了推理吞吐量。

目前Mooncake技术框架已正式开源上线，官方还表示：

欢迎更多企业和研究机构加入Mooncake项目共建，共同探索更加高效和先进的模型推理系统架构创新，让基于大模型技术的AI助手等产品，持续惠及更广泛人群。

刚刚，Kimi开源底层推理框架，1小时GitHub揽星1.2k

吴恩达开源大模型套件：11个模型平台一种方式调用，半天获1.2k星

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

这是什么样的员工，做出来的年会视频也太有创意了

8年前阿法狗的一个“错误”，竟成大模型研究新方向！大模型之争进入新阶段，从拼“模仿”转向拼“推理”

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

理想汽车直播为何公然逆行，原因是靠不住的视觉语言模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

金矿上的村庄：遥远的“暴富神话”与“三班倒”矿工丨封面头条

baby香港出席活动暴瘦仅80斤，忙完凌晨吃火锅被偶遇，素颜好憔悴

终于还是把Mate70发布会看完了，说句实话，不是超越和碾压

2025 Moto Morini 31/2海外发布，350cc V型双缸

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

《GTA6》PC版确认！还有革命性新技术

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

大众换代“小途观”曝光！换“混动”引擎+8速变速箱，期待吗

重拳出击任天堂正在追查Switch盗版商案的其他成员

对华加税不到1个月，欧盟先“认输”了？与中方接近达成解决方案

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

刚刚，Kimi开源底层推理框架，1小时GitHub揽星1.2k

吴恩达开源大模型套件：11个模型平台一种方式调用，半天获1.2k星

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

这是什么样的员工，做出来的年会视频也太有创意了

8年前阿法狗的一个“错误”，竟成大模型研究新方向！ 大模型之争进入新阶段，从拼“模仿”转向拼“推理”

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

理想汽车直播为何公然逆行，原因是靠不住的视觉语言模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

金矿上的村庄：遥远的“暴富神话”与“三班倒”矿工丨封面头条

baby香港出席活动暴瘦仅80斤，忙完凌晨吃火锅被偶遇，素颜好憔悴

终于还是把Mate70发布会看完了，说句实话，不是超越和碾压

2025 Moto Morini 31/2海外发布，350cc V型双缸

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

《GTA6》PC版确认！还有革命性新技术

两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT

大众换代“小途观”曝光！换“混动”引擎+8速变速箱，期待吗

重拳出击 任天堂正在追查Switch盗版商案的其他成员

对华加税不到1个月，欧盟先“认输”了？与中方接近达成解决方案

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

8年前阿法狗的一个“错误”，竟成大模型研究新方向！大模型之争进入新阶段，从拼“模仿”转向拼“推理”

重拳出击任天堂正在追查Switch盗版商案的其他成员