模型启动加速篇——DeepGEMM预编译缓存

发表于2025-12-24|更新于2026-02-24|技术AILLM

|浏览量:

概览

随着模型越来越大，模型启动耗时越来越久，在一些紧急扩容场景、推理部署调试场景，受制于模型启动耗时，影响效率甚至影响收入，所以模型启动加速也是一个重要的课题。

这一篇分享下如何通过DeepGEMM预编译缓存来实现启动加速。

DeepGEMM(General Matrix Multiplication)，是DeepSeek研发团队专为DeepSeek优化的高性能矩阵乘法库，特别针对FP8精度做了深度优化。

DeepGEMM kernel不是提前编译好的固定程序，会根据实际运行的模型尺寸（包括模型结构、并行策略、精度等）动态生成。

所以默认在模型启动时需要对DeepGEMM进行JIT，而我们对于同一个模型和启动参数，自然可以缓存下来DeepGEMM编译后的内容，用于下一次启动加速。

启动耗时

以DeepSeek-V3.1-Terminus为例，我们在一次启动耗时可能达到8min多。其中DeepGEMM JIT达到了6min多。

阶段	耗时	说明
服务器初始化 + 分布式通信	~12s	配置加载、8 GPU worker 初始化
主模型权重加载	~53s	DeepseekV3ForCausalLM
CUDA Graph 捕获 + DeepGEMM JIT 编译	~6min 17s	主要耗时，包含7次 JIT 编译
Draft 模型加载 (EAGLE)	~2s	投机解码模型
Draft CUDA Graph 捕获	~10s	Draft decode + extend graph
Host Memory + Mooncake 初始化	~14s
Warmup 首次推理	~35s
总计	~8min 32s	-

优化前

优化方案

首先进行一次配置了export SGLANG_ENABLE_JIT_DEEPGEMM=1的服务启动，启动之后可以在~/.cahce/下看到deep_gemm的目录，里面包含cache和tmp缓存文件。这就是DeepGEMM JIT生成的kernel缓存，这是我们优化的关键。
推理服务配置export SGLANG_DG_CACHE_DIR=/dev/shm/deep_gemm，表示指定DeepGEMM使用该目录作为缓存目录，在JIT时发现里面有缓存便会直接使用了。
以我们的方案为例，我们将打包的deep_gemm缓存放在对象存储或者其他文件系统，在启动前的预置脚本中将deep_gemm拷贝到我们的目标目录，以当前为例即/dev/shm下并解压即可。

之后就可以看到启动过程中对于DeepGEMM的JIT一闪而过，从8分多优化至 10几秒。

优化后

版权声明

本博客所有原创内容，均采用 CC BY-NC-SA 4.0 协议，转载请注明出处。

文章作者: Veast

文章链接: http://veast.github.io/2025/12/24/tech/ai/llm/DeepGEMM/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Veast！

ML System LLM Infer SGLang

相关推荐

企业级LLM推理集群的构建

前言最近在从0搭建一个企业级的LLM的推理集群，从系统能力维度上来说，涉及了可靠性、性能、安全、监控等，从具体能力上来说，设计了服务网关、单机/多机k8s部署方案、推理服务可靠性保障、服务部署加速等内容。挖一个大坑，系统性的分多个章节整理一下具体内容。版权声明本博客所有原创内容，均采用 CC BY-NC-SA 4.0 协议，转载请注明出处。

Nvidia Dynamo, 高效的LLM分布式推理框架

【本文持续更新中..】内容目前基于2025.05及之前的内容整理总结，请注意时效性。概览先了解一下dynamo是什么东西，到官网看一下官方介绍，可以看到三个dynamo相关的概念，我们逐个看下介绍： NVIDIA Dynamo Platform：关键字已经标出来了，是一个”推理平台”，支持”任何框架、架构、部署规模”的模型。 NVIDIA Dynamo：继续看关键字，”推理框架”，”分布式环境”场景支持，支持”所有主流推理后端”，支持分离部署。 NVIDIA...

Transformer深度解析与通俗理解

前言之前ChatGPT横空出世，顺应潮流从推荐系统转向LLM，于是半知半解的学习了《Attention is all you need》，这么久过去了，总想重新整理下思路，于是写下这篇文章。解析与理解为什么为什么会出现Transformer？在这之前，是RNN循环神经网络，它有两个问题，第一个是健忘，越往后的词，跟最开始的词的信息关系就变得很弱。第二个是慢，没有办法并行计算。那Transformer的思路就是，每个词自己决定想听哪个词，想关注谁。模型结构 Encoder理解输入，将输入序列转化为包含上下文信息的向量表示。从模型结构里看，由6个block堆叠而成，每一层主要包含两个子层，分别是MHA以及FFN，MHA是让词与词之间交流，理解上下文，FFN是对每个位置的信息进行独立强化。 Decoder产生输出，根据Encoder的信息和已经生成的单词，预测下一个。相比较Encoder，多了一个Masked...

评论