About us

Categories

Tags

Follow us on: X, LinkedIn

Initiated and Officially Supported by Tensormesh

加速LLM推理: 跳出推理引擎

By

LMCache Team

[2025年7月21日]() Best practices, New features

AIbrix, dynamo,inference engines, kserve,kubernetes,llm-d, Imignite,Modula,orchestration, orchestrator,production stack,scale, SGLang OME,
作者:Junchen Jiang, Hanchen Li and Jake Sonsini

简要总结:大语言模型正迅速成为企业AI中的主要工作负载。当越来越多的应用依赖实时生成,推理性能——速度、成本、可靠性——就成了头号瓶颈。如今,业界几乎把全部注意力都放在“加速推理引擎”上(vLLM、SGLang、TensorRT 等),却忽视了一片更大的优化疆域:引擎之上、跨引擎的整个系统层。

A flowchart illustrating the relationship between Inference Engines and the Orchestration Layer, showcasing components like vLLM, SG, and various orchestration systems across shared GPU resources.

现状: 大规模复制推理引擎

如今的大语言模型推理系统由两大核心组件构成:

  • 推理引擎: 针对单个模型实例优化推理性能。
  • 编排层: 借助 Kubernetes 等工具,复制这些引擎以实现水平扩展。

这种“以引擎为中心”的思维假定,绝大部分性能增益都源于引擎内部;编排层被视为一层“薄”且几乎无状态的外壳——只需启动更多副本即可提升吞吐量。

该模型驱动了以下开源系统:

这些方案在横向扩展方面表现良好,但当需要更深层次的系统级优化时,它们便会遇到瓶颈。

新前沿:超越引擎的 LLM 原生优化

真正的性能提升在于“跨引擎”的智能编排——通过共享状态、复用计算和全局优化。例如:

  • 动态 prefill/decode 分离
  • 跨会话的 KV cache共享(传输、压缩)
  • 在线 KV cache更新(融合、编辑、翻译)
  • 请求路径之外的休眠时间计算
  • 查询迁移与跨 Agent 的流水线

这些优化需要“有状态的协同”和“智能调度”——原生 Kubernetes 方案很难直接提供。正因如此,在编排层进行创新,才能带来显著的性能收益。

问题不在 Kubernetes 本身——但它还不够

先说清楚:我们并不是在说 Kubernetes 没用。它是现代软件基础设施的核心组件。我们的意思是——仅靠 Kubernetes 来做 LLM 推理编排,会限制所能达到的上限。以下是现有基于K8s的开源系统不足的原因:

仅支持无状态的副本

Kubernetes 把所有 Pod 都当作无状态、同质的单元。
然而,LLM 工作负载依赖共享、有状态的组件,如 KV cache和中间工具调用状态。
LLM 时代的许多优化都要求态持久化并在请求和副本间共享——这正是 Kubernetes 原生所不支持的。

仅支持请求驱动执行

像缓存压缩、休眠时预取或后台融合这类优化,都需要在关键请求路径之外进行计算。
然而,基于 Kubernetes 的编排器是基于请求-响应模型构建的——没有简单的方法可以与主流推理工作同时调度或中断后台作业

不适合 LLM 特有的逻辑

特定于推理的调度(例如,优先考虑延迟敏感型作业而非后台作业)很难在现有的编排框架中实现。更糟的是,大多数系统用 Go 或 Rust 编写——这些语言并不适合张量密集型, 类Python 工作负载的快速原型设计。

部署与运维难度高

与 OpenAI、Claude、Fireworks 或 Together AI 这类 API 或专用端点方案相比,基于 Kubernetes 的推理栈部署和运维要复杂得多。即便拥有基础设施经验的团队,也随着更多优化和“补丁”被层层叠加到本就复杂的系统中而难以跟上。

归根结底:推理优化的前沿推进得越远,仅依赖 Kubernetes 的架构就越成为瓶颈

我们需要什么:LLM 原生的编排器

为支持下一代推理工作负载,我们需要一款专为 LLM 打造的编排器,它应:

  • 支持面向张量的通信与状态共享(用于 KV 缓存复用、迁移与流水线)
  • 允许可中断的后台任务(用于压缩、融合及非请求类计算)
  • 在实时任务与后台任务之间调度,能感知延迟、资源占用和依赖关系
  • 即使团队缺乏深厚基础设施经验,也能轻松部署与运维

这不是取代 Kubernetes,而是对其补充。Kubernetes 仍可负责容器生命周期、节点扩缩和集群管理;但推理工作负载本身需要理解 LLM 特有模式的编排逻辑

下一步

我们构建了一个 LLM 原生编排解决方案来满足这些需求,在不牺牲可用性的情况下支持强大的系统级优化。在下一篇文章中,我们将分享有关其架构、性能和实际部署的详细信息,敬请期待。

链接

LMCache Github: https://github.com/LMCache/LMCache
与开发者沟通 Interest Form
LMCache slack
vLLM生成技术栈 channel

发表评论

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理

了解 LMCache Blog 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读