About us

Categories

Tags

Follow us on: X, LinkedIn

Initiated and Officially Supported by Tensormesh

GMI Cloud 携手 Tensormesh 实现 4 倍 LLM 性能提升

By

Colin Mo (GMI Cloud)

and

Yihua Cheng

通过由 SSD 增强的 KVCache 支持的前缀缓存,我们实现了 4 倍的大语言模型性能提升

这是 GMI CloudTensormesh 工程团队联合完成的一项技术基准测试。


核心测试结果总结

  • 当使用 SSD 增强的 KVCache 支持前缀缓存时, Token 时间(Time to First Token, TTFT)降低了 4
  • 前缀缓存命中率从 3% 提升至超过 50%,表明真实的对话型工作负载中包含大量可复用的计算。
  • 显著平滑了延迟波动,尤其是在长提示词场景下,提升了多轮智能体和 AI 伴侣类应用的用户响应体验。
  • 减少了冗余的 KV 重计算,降低了单次请求的 GPU 计算周期,从而在相同硬件条件下实现更高的有效吞吐量。

这些结果表明,可扩展的 KV Cache 优化是一种在真实世界 LLM 推理中切实可行且影响显著的优化手段,尤其适用于 AI 伴侣、辅导系统或智能体工作负载,因为在这些场景中,对话历史和上下文窗口会迅速累积。


基准测试中的细节

1. 面向真实多轮流量的数据集构建

由于客户数据隐私至关重要,真实生产数据被严格禁止使用。GMI 的解决方案是分析客户提示词特征,生成一个高度逼真的合成数据集,以忠实复现我们在线推理服务中观察到的流量模式。

该数据集包含:

  • 多轮对话:专门为 AI 伴侣场景设计,对话轮次从 1 轮到 10 轮以上不等。
  • 真实世界的交错流量:同一对话中的请求并非按顺序到达,真实模拟了现实用户流量中不可预测、非顺序的到达方式。
  • 真实的语言多样性:提示词涵盖多种情绪语气、闲聊、个人问题、追问以及纠正内容。
  • 负载测试设计:测试同时混合了短的上下文查询与包含大量历史信息的长提示词,从而真实衡量系统在负载下的性能表现。

该数据集确保了 KV Cache 的复用是在真实且非理想化的流量模式下进行评估的。

2. 实验设置

我们部署了两套推理系统:

  • 普通 vLLM,使用标准 KVCache 行为。
  • 启用 LMCache vLLM,集成了 Tensormesh 的缓存层。

我们评估了两种缓存配置:

  • 仅使用内存卸载KVCache,缓存容量受限于内存大小。
  • 内存 + 高容量 SSD 的混合配置,支持更大的 KV Cache 数据存储空间。

两套系统在完全相同的负载条件下,使用同一份合成数据集进行测试。

3. 详细发现

仅使用内存卸载 KVCache 的情况下:

  • 仅带来了约 1.4 倍的 TTFT 改善
  • 由于缓存容量有限,KV Cache 很快被驱逐,对多轮对话工作负载的提升效果有限。

SSD 增强的KVCache卸载:

  • 实现了 4 倍的 TTFT 提升
  • 随着缓存逐渐预热,缓存命中率提升至接近 50%
  • 不同提示词长度下的延迟波动显著降低。

结论:缓存容量大小是决定 KV 缓存在真实工作负载中有效性的主导因素。

真正的突破来自于引入大容量 SSD 作为二级存储。随着可用 KVCache 空间的巨大提升,性能改善变得非常显著:

4. 具体结果

Token 时间(TTFT
TTFT——用户响应体验中的关键指标——相比原始推理架构提升了惊人的 4 。这一加速对用户体验具有革命性意义。

Bar graph comparing average TTFT (Total Time for Task) in seconds for three configurations: vLLM with LMCache CPU + Disk (0.331s), vLLM with LMCache CPU offloading (0.8148s), and Native vLLM (1.1629s).

前缀 KV Cache 命中率
这一巨大提升的原因非常清晰:KV Cache 命中率在测试过程中从接近零迅速提升至接近 50%。一半时间命中缓存,极大减少了冗余计算。

Bar graph showing average prefix cache hit rate percentages for three configurations: Native vLLM (3.43%), vLLM with LMCache CPU offloading (23.84%), and vLLM with LMCache CPU and Disk (53.21%).

更平滑的性能表现
虽然 TTFT 会随着提示词长度自然变化,但在缓存加载完成后,缓存机制成功平滑了这种变化,为终端用户提供了更加一致、可靠的延迟体验。

Line graph displaying TTFT (Time To First Token) over time, comparing three models: vLLM with LMCache CPU + Disk, vLLM with LMCache CPU offloading, and Native vLLM. The y-axis represents TTFT in seconds, while the x-axis shows time in a specific format.

KV Cache 对 LLM 推理架构的影响

当这些性能提升在 GMI 的整体基础设施中落地后,将直接转化为显著且可量化的业务价值:

  • 更高的计算效率:减少前缀 KV 的重复计算,降低单请求 GPU 使用率。
  • 更可预测的延迟:对智能体循环、AI 伴侣和交互式系统至关重要。
  • 更高的集群吞吐量:在相同硬件条件下实现更高的 QPS。
  • 可扩展的优化方案:SSD 支持的缓存使得部署无需昂贵的 RAM 扩容。

总体而言,GMI Cloud 的工程团队指出,这一无需额外成本的配置带来了“纯粹的性能提升,而没有额外开销”。我们完全有理由相信,其他云服务提供商在采用该方案后也能获得类似的效率提升。


面向开发者与研究人员的总结

  • 真实世界的对话型流量中存在大量可被有效缓存的重复内容。
  • 大容量缓存(RAM + SSD)是解锁显著性能提升的关键
  • LMCache 可以以较低的集成成本部署在现有的 vLLM 推理架构中。
  • 这些优化对构建智能体循环、AI 伴侣以及高吞吐 LLM 产品的开发者具有直接价值。

Tensormesh 简介

Tensormesh 是一家 AI 基础设施公司,致力于通过缓存加速的推理优化技术服务企业级 AI。他们的技术能够在推理过程中减少冗余计算,最多可将 GPU 成本和延迟降低 10 倍,同时确保企业对自身基础设施和数据拥有完全控制权。Tensormesh 最近宣布正式公开发布,并完成了一轮由 Laude Ventures 领投的 450 万美元种子轮融资

GMI Cloud 简介

GMI Cloud 提供世界级的 GPU 云基础设施和模型推理服务,专为 AI 和机器学习工作负载量身打造。作为 NVIDIA 云合作伙伴,GMI 提供高性能 GPU 集群,包括 NVIDIA Blackwell 以及 H100 和 H200 GPU 等前沿硬件。GMI 总部位于加利福尼亚州山景城,其使命是让全球客户的 AI 开发与规模化部署更加高效、可及。

发表评论

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理

了解 LMCache Blog 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读