前言
最近在从0搭建一个企业级的LLM的推理集群,从系统能力维度上来说,涉及了可靠性、性能、安全、监控等,从具体能力上来说,设计了服务网关、单机/多机k8s部署方案、推理服务可靠性保障、服务部署加速等内容。
挖一个大坑,系统性的分多个章节整理一下具体内容。
版权声明
本博客所有原创内容,均采用 CC BY-NC-SA 4.0 协议,转载请注明出处。
文章作者: Veast
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Veast!
相关推荐
2025-12-24
模型启动加速篇——DeepGEMM预编译缓存
概览随着模型越来越大,模型启动耗时越来越久,在一些紧急扩容场景、推理部署调试场景,受制于模型启动耗时,影响效率甚至影响收入,所以模型启动加速也是一个重要的课题。 这一篇分享下如何通过DeepGEMM预编译缓存来实现启动加速。 DeepGEMM(General Matrix Multiplication),是DeepSeek研发团队专为DeepSeek优化的高性能矩阵乘法库,特别针对FP8精度做了深度优化。 DeepGEMM kernel不是提前编译好的固定程序,会根据实际运行的模型尺寸(包括模型结构、并行策略、精度等)动态生成。 所以默认在模型启动时需要对DeepGEMM进行JIT,而我们对于同一个模型和启动参数,自然可以缓存下来DeepGEMM编译后的内容,用于下一次启动加速。 启动耗时以DeepSeek-V3.1-Terminus为例,我们在一次启动耗时可能达到8min多。其中DeepGEMM JIT达到了6min多。 阶段 耗时 说明 服务器初始化 + 分布式通信 ~12s 配置加载、8 GPU worker...
2025-06-02
Nvidia Dynamo, 高效的LLM分布式推理框架
【本文持续更新中..】内容目前基于2025.05及之前的内容整理总结,请注意时效性。 概览先了解一下dynamo是什么东西,到官网看一下官方介绍,可以看到三个dynamo相关的概念,我们逐个看下介绍: NVIDIA Dynamo Platform:关键字已经标出来了,是一个”推理平台”,支持”任何框架、架构、部署规模”的模型。 NVIDIA Dynamo:继续看关键字,”推理框架”,”分布式环境”场景支持,支持”所有主流推理后端”,支持分离部署。 NVIDIA...
2025-06-15
Higress(01)——使用Higress作为LLM推理的接入层网关
前言踩坑记录1. 长文本压测,部分请求处于等待队列,3min后中断检查higress-gateway日志,发现报错信息"response_code_detail": "stream_idle_timeout",官方文档没找到相关说明,翻了下各个config,在higress-config配置文件中找到相关配置data.higress.downstream.idleTimeout=180,决定了下游的闲置超时时间,修改该配置后问题解决 版权声明 本博客所有原创内容,均采用 CC BY-NC-SA 4.0 协议,转载请注明出处。
2025-06-15
Higress(02)——基于文件实现Higress的AI路由配置
前言Higress更多是通过控制台进行路由规则配置,不过在项目开发过程中,为了完成推理服务的部署与上线的全自动化流程,我们需要通过远程调用的方式实现网关配置,经过管理台配置与k8s中ConfigMap、McpBridge、Wasm配置的比对,产生了这个实践经验。 我们是使用AI网关的能力,使用了AI服务路由、认证管理的能力,所以涉及的配置有:域名配置、AI服务提供者配置、AI消费者配置、AI路由规则配置。 模拟一个场景: 假设我们的LLM服务提供者的访问域名为https://lololo.com/v1,使用openai/v1的协议 假设我们希望配置消费者为labubu,使用key auth校验 假设我们希望对域名http://zimomo.com/v1的访问,都可以转发给https://lololo.com/v1这个服务提供商 假设我们期望创建的路由规则名字为:zimomo2lololo OK,Let’s...
2026-02-24
Transformer深度解析与通俗理解
前言之前ChatGPT横空出世,顺应潮流从推荐系统转向LLM,于是半知半解的学习了《Attention is all you need》,这么久过去了,总想重新整理下思路,于是写下这篇文章。 解析与理解为什么为什么会出现Transformer?在这之前,是RNN循环神经网络,它有两个问题,第一个是健忘,越往后的词,跟最开始的词的信息关系就变得很弱。第二个是慢,没有办法并行计算。那Transformer的思路就是,每个词自己决定想听哪个词,想关注谁。 模型结构 Encoder理解输入,将输入序列转化为包含上下文信息的向量表示。从模型结构里看,由6个block堆叠而成,每一层主要包含两个子层,分别是MHA以及FFN,MHA是让词与词之间交流,理解上下文,FFN是对每个位置的信息进行独立强化。 Decoder产生输出,根据Encoder的信息和已经生成的单词,预测下一个。相比较Encoder,多了一个Masked...
评论