企业级LLM推理集群的构建

发表于2025-06-08|更新于2026-02-24|技术AILLM

|浏览量:

前言

最近在从0搭建一个企业级的LLM的推理集群，从系统能力维度上来说，涉及了可靠性、性能、安全、监控等，从具体能力上来说，设计了服务网关、单机/多机k8s部署方案、推理服务可靠性保障、服务部署加速等内容。

挖一个大坑，系统性的分多个章节整理一下具体内容。

版权声明

本博客所有原创内容，均采用 CC BY-NC-SA 4.0 协议，转载请注明出处。

文章作者: Veast

文章链接: http://veast.github.io/2025/06/08/tech/ai/llm/LLM-Infer-Cluster/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Veast！

Cloud Native for AI ML System LLM Infer

相关推荐

模型启动加速篇——DeepGEMM预编译缓存

概览随着模型越来越大，模型启动耗时越来越久，在一些紧急扩容场景、推理部署调试场景，受制于模型启动耗时，影响效率甚至影响收入，所以模型启动加速也是一个重要的课题。这一篇分享下如何通过DeepGEMM预编译缓存来实现启动加速。 DeepGEMM(General Matrix Multiplication)，是DeepSeek研发团队专为DeepSeek优化的高性能矩阵乘法库，特别针对FP8精度做了深度优化。 DeepGEMM kernel不是提前编译好的固定程序，会根据实际运行的模型尺寸（包括模型结构、并行策略、精度等）动态生成。所以默认在模型启动时需要对DeepGEMM进行JIT，而我们对于同一个模型和启动参数，自然可以缓存下来DeepGEMM编译后的内容，用于下一次启动加速。启动耗时以DeepSeek-V3.1-Terminus为例，我们在一次启动耗时可能达到8min多。其中DeepGEMM JIT达到了6min多。阶段耗时说明服务器初始化 + 分布式通信 ~12s 配置加载、8 GPU worker...

Nvidia Dynamo, 高效的LLM分布式推理框架

【本文持续更新中..】内容目前基于2025.05及之前的内容整理总结，请注意时效性。概览先了解一下dynamo是什么东西，到官网看一下官方介绍，可以看到三个dynamo相关的概念，我们逐个看下介绍： NVIDIA Dynamo Platform：关键字已经标出来了，是一个”推理平台”，支持”任何框架、架构、部署规模”的模型。 NVIDIA Dynamo：继续看关键字，”推理框架”，”分布式环境”场景支持，支持”所有主流推理后端”，支持分离部署。 NVIDIA...

Higress(01)——使用Higress作为LLM推理的接入层网关

前言踩坑记录1. 长文本压测，部分请求处于等待队列，3min后中断检查higress-gateway日志，发现报错信息"response_code_detail": "stream_idle_timeout"，官方文档没找到相关说明，翻了下各个config，在higress-config配置文件中找到相关配置data.higress.downstream.idleTimeout=180，决定了下游的闲置超时时间，修改该配置后问题解决版权声明本博客所有原创内容，均采用 CC BY-NC-SA 4.0 协议，转载请注明出处。

Higress(02)——基于文件实现Higress的AI路由配置

前言Higress更多是通过控制台进行路由规则配置，不过在项目开发过程中，为了完成推理服务的部署与上线的全自动化流程，我们需要通过远程调用的方式实现网关配置，经过管理台配置与k8s中ConfigMap、McpBridge、Wasm配置的比对，产生了这个实践经验。我们是使用AI网关的能力，使用了AI服务路由、认证管理的能力，所以涉及的配置有：域名配置、AI服务提供者配置、AI消费者配置、AI路由规则配置。模拟一个场景：假设我们的LLM服务提供者的访问域名为https://lololo.com/v1，使用openai/v1的协议假设我们希望配置消费者为labubu，使用key auth校验假设我们希望对域名http://zimomo.com/v1的访问，都可以转发给https://lololo.com/v1这个服务提供商假设我们期望创建的路由规则名字为：zimomo2lololo OK，Let’s...

Transformer深度解析与通俗理解

前言之前ChatGPT横空出世，顺应潮流从推荐系统转向LLM，于是半知半解的学习了《Attention is all you need》，这么久过去了，总想重新整理下思路，于是写下这篇文章。解析与理解为什么为什么会出现Transformer？在这之前，是RNN循环神经网络，它有两个问题，第一个是健忘，越往后的词，跟最开始的词的信息关系就变得很弱。第二个是慢，没有办法并行计算。那Transformer的思路就是，每个词自己决定想听哪个词，想关注谁。模型结构 Encoder理解输入，将输入序列转化为包含上下文信息的向量表示。从模型结构里看，由6个block堆叠而成，每一层主要包含两个子层，分别是MHA以及FFN，MHA是让词与词之间交流，理解上下文，FFN是对每个位置的信息进行独立强化。 Decoder产生输出，根据Encoder的信息和已经生成的单词，预测下一个。相比较Encoder，多了一个Masked...

评论