About us

Categories

Tags

Follow us on: X, LinkedIn

Initiated and Officially Supported by Tensormesh

LMCache 与 CoreWeave 如何助力 Cohere 突破内存瓶颈,实现高效大模型推理

By

loki

By Walter Beller-Morales (Cohere), Samuel Shen (Tensormesh), Kishor Aher (CoreWeave)


一、挑战:企业级 AI 的扩展难题

当前,各类企业正竞相将大语言模型(LLM)融入其产品与工作流程。然而,当应用规模扩大时,性能、成本与精度便成为三大核心挑战。企业既需要模型能基于自身数据进行定制,又必须确保数据隐私的安全性。
Cohere 作为领先的企业级 AI 公司,构建了 North 平台,旨在帮助组织安全、有效地利用内部数据以实现检索增强生成(Retrieval-Augmented Generation,RAG)。North 使企业能够将模型输出锚定于可信的私有知识库,从而生成高精度、上下文相关的定制化响应。

在 RAG 场景中,每次查询都会在请求前加上与上下文相关的数据,以便模型生成更贴切的回答。然而,这种方法带来了新的计算负担:大量上下文数据需在每次查询时重新处理,因为这些信息不会更新模型权重,而是仅临时存储于 GPU 缓存中,并在推理完成后被释放。上下文越丰富,模型需处理的 token 越多,对应的 Key-Value(KV)缓存张量也随之膨胀,迅速消耗 GPU/CPU 内存。
这种情况并非 RAG 所独有——无论是工具调用参数、代码片段还是长指令,凡是附加到提示中的内容,都会增加计算负载。而在大规模推理环境中,即使使用如 vLLM 这样高效的引擎,内存占用仍成为性能与成本的瓶颈。

Cohere 工程团队由此思考:能否将 KV 缓存存储在远端,以释放本地内存,同时不牺牲推理速度?
答案来自 LMCacheCoreWeave AI Object Storage 的结合——二者协同实现了高性能的远程 KV 缓存,使得大模型在长上下文推理中兼顾低内存占用与高吞吐率。


二、远程 KV 缓存的设计理念

LMCache 重新定义了语言模型管理与存储上下文的方式。
在每一个基于 Transformer 解码器结构的 LLM 中,KV 缓存用于存储跨 token 的隐藏状态,以保持输出连贯性。随着输入长度增长,KV 缓存体积迅速增大,成为主要内存瓶颈。

LMCache 的核心创新在于 远程 KV 缓存架构
缓存数据不再全部驻留于 GPU 或 CPU 内存,而是被序列化并外部存储,在需要时动态取回。这大幅减轻了推理硬件的内存压力,使得模型可处理更长上下文、同时支持更多会话,并实现更优的资源利用率,且在多数情况下还能进一步提升性能。

要使远程缓存切实可行,存储系统需具备高吞吐与低延迟特性。CoreWeave AI Object Storage 正是为此而生。它专为 AI 负载设计,提供每秒多 GB 级的带宽与 GPU 集群级的弹性扩展能力,确保 KV 数据可被高速卸载、持久化并快速取回。

LMCache 负责缓存序列化与协调,而 CoreWeave 提供分布式性能支撑,二者形成紧密集成的体系结构。这一架构使推理上下文的增长不再受制于内存容量,实现了高灵活性与智能化的可扩展推理范式。


三、基准测试与性能验证

为验证远程缓存的实际表现,LMCache 团队与 Cohere 合作,在 North 平台上使用 CoreWeave AI Object Storage 进行性能基准测试,评估远程缓存下推理速度与效率的变化。

测试模型为 Cohere Command A,运行在 CoreWeave GPU 基础设施上,并采用 vLLM 推理引擎。实验包括三种配置:

  1. Baseline(基线):完全预填充,无缓存复用;
  2. LMCache + CoreWeave:KV 数据序列化后存储于 CoreWeave 对象存储中,按需取回;
  3. S3 Express(对比组):作为冷缓存与热缓存条件下的参考性能基线。

主要测试指标包括:

  • Time to First Token (TTFT):生成首个 token 所需时间;
  • Decoding Throughput:完成预填充后每秒生成的 token 数量。
Bar graph comparing Time-to-first-token (TTFT) between 'Without Caching' and 'With LMCache & CoreWeave Object Storage'. The blue bar represents the speed without caching, while the red bar shows the speed with caching. The blue bar is higher, indicating longer TTFT without caching.
A bar chart comparing batched decode speed in tokens per second, showing two conditions: without caching (blue) and with LMCache & CoreWeave Object Storage (red).

测试结果显示:

  • TTFT 降低 22–32%,响应速度显著提升;
  • 解码吞吐量提升 41%
  • 冷缓存条件下较 S3 Express 性能提升 1.2 倍
  • 热缓存条件下性能提升高达 3 倍

这一结果表明,通过合理的系统架构设计,远程缓存不仅能超越传统的内存约束推理方式,还能显著降低硬件负载与运营成本。


四、背后的技术机制

从理论上看,将缓存转移到远程存储似乎会降低性能——毕竟存储带宽远低于 GPU/CPU 内存。但在实际测试中,LMCacheCoreWeave 的协同架构彻底颠覆了这一假设。

  1. 异步 KV 缓存加载机制
    传统系统在请求缓存时,GPU 需等待数据可用后才能继续计算,导致空闲时间增加。
    LMCache 采用非阻塞式异步加载机制:在模型推理过程中,当某段缓存尚未取回时,推理引擎继续处理已有 token 的解码操作。LMCache 通过流式加载的方式,在计算与 I/O 之间实现重叠,从而隐藏了存储延迟。
A diagram comparing blocking-based KV cache loading and asynchronous KV cache loading, showing timelines and GPU computation for multiple queries.

2. 高吞吐远程存储架构
CoreWeave 的对象存储系统在每个 8-GPU 节点上可提供 8.5–10 GB/s 的带宽,足以支撑大规模模型的缓存传输。结合 LMCache 的异步机制,存储延迟被完全掩蔽于 GPU 计算过程之下,实现了如同本地缓存般的连续高效推理体验。

这两项创新共同突破了传统内存边界,使 LLM 推理的扩展能力从硬件限制转向体系结构驱动。


五、面向未来的可扩展推理范式

Cohere、LMCache 与 CoreWeave 的协作标志着企业级大模型优化的范式转变。过去,推理性能提升主要依赖于增加 GPU 数量、扩大集群或优化批处理策略;而如今,随着上下文长度的增长与任务多样性的提升,关键问题变成了:如何让推理更智能,而非仅仅更快?

通过结合 LMCache 的远程缓存机制与 CoreWeave 的高吞吐基础设施,Cohere 展示了在降低内存开销的同时保持甚至提升推理速度的可能性。
这一方案带来了显著的系统收益:

  • 会话持久化:缓存可在集群缩放后快速恢复;
  • 跨节点可扩展性:缓存数据可在不同推理系统间无缝迁移;
  • 更低运营成本:在保持性能的前提下优化资源使用。

对于部署大模型的企业而言,这种能力具有变革意义。Cohere、LMCache 与 CoreWeave 的合作验证了一个新的推理范式:效率来自体系结构智能,而非单纯的算力堆叠

随着 LLM 的持续演进,这一架构为高性能与可持续 AI 推理提供了新的方向——通过融合先进的缓存系统与高性能云基础设施,全球领先的 AI 平台将实现更快、更轻量且更具经济性的推理体验。

了解更多:

发表评论

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理

了解 LMCache Blog 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读