By Walter Beller-Morales (Cohere), Samuel Shen (Tensormesh), Kishor Aher (CoreWeave)
一、挑战:企业级 AI 的扩展难题
当前,各类企业正竞相将大语言模型(LLM)融入其产品与工作流程。然而,当应用规模扩大时,性能、成本与精度便成为三大核心挑战。企业既需要模型能基于自身数据进行定制,又必须确保数据隐私的安全性。
Cohere 作为领先的企业级 AI 公司,构建了 North 平台,旨在帮助组织安全、有效地利用内部数据以实现检索增强生成(Retrieval-Augmented Generation,RAG)。North 使企业能够将模型输出锚定于可信的私有知识库,从而生成高精度、上下文相关的定制化响应。
在 RAG 场景中,每次查询都会在请求前加上与上下文相关的数据,以便模型生成更贴切的回答。然而,这种方法带来了新的计算负担:大量上下文数据需在每次查询时重新处理,因为这些信息不会更新模型权重,而是仅临时存储于 GPU 缓存中,并在推理完成后被释放。上下文越丰富,模型需处理的 token 越多,对应的 Key-Value(KV)缓存张量也随之膨胀,迅速消耗 GPU/CPU 内存。
这种情况并非 RAG 所独有——无论是工具调用参数、代码片段还是长指令,凡是附加到提示中的内容,都会增加计算负载。而在大规模推理环境中,即使使用如 vLLM 这样高效的引擎,内存占用仍成为性能与成本的瓶颈。
Cohere 工程团队由此思考:能否将 KV 缓存存储在远端,以释放本地内存,同时不牺牲推理速度?
答案来自 LMCache 与 CoreWeave AI Object Storage 的结合——二者协同实现了高性能的远程 KV 缓存,使得大模型在长上下文推理中兼顾低内存占用与高吞吐率。
二、远程 KV 缓存的设计理念
LMCache 重新定义了语言模型管理与存储上下文的方式。
在每一个基于 Transformer 解码器结构的 LLM 中,KV 缓存用于存储跨 token 的隐藏状态,以保持输出连贯性。随着输入长度增长,KV 缓存体积迅速增大,成为主要内存瓶颈。
LMCache 的核心创新在于 远程 KV 缓存架构:
缓存数据不再全部驻留于 GPU 或 CPU 内存,而是被序列化并外部存储,在需要时动态取回。这大幅减轻了推理硬件的内存压力,使得模型可处理更长上下文、同时支持更多会话,并实现更优的资源利用率,且在多数情况下还能进一步提升性能。
要使远程缓存切实可行,存储系统需具备高吞吐与低延迟特性。CoreWeave AI Object Storage 正是为此而生。它专为 AI 负载设计,提供每秒多 GB 级的带宽与 GPU 集群级的弹性扩展能力,确保 KV 数据可被高速卸载、持久化并快速取回。
LMCache 负责缓存序列化与协调,而 CoreWeave 提供分布式性能支撑,二者形成紧密集成的体系结构。这一架构使推理上下文的增长不再受制于内存容量,实现了高灵活性与智能化的可扩展推理范式。
三、基准测试与性能验证
为验证远程缓存的实际表现,LMCache 团队与 Cohere 合作,在 North 平台上使用 CoreWeave AI Object Storage 进行性能基准测试,评估远程缓存下推理速度与效率的变化。
测试模型为 Cohere Command A,运行在 CoreWeave GPU 基础设施上,并采用 vLLM 推理引擎。实验包括三种配置:
- Baseline(基线):完全预填充,无缓存复用;
- LMCache + CoreWeave:KV 数据序列化后存储于 CoreWeave 对象存储中,按需取回;
- S3 Express(对比组):作为冷缓存与热缓存条件下的参考性能基线。
主要测试指标包括:
- Time to First Token (TTFT):生成首个 token 所需时间;
- Decoding Throughput:完成预填充后每秒生成的 token 数量。


测试结果显示:
- TTFT 降低 22–32%,响应速度显著提升;
- 解码吞吐量提升 41%;
- 冷缓存条件下较 S3 Express 性能提升 1.2 倍;
- 热缓存条件下性能提升高达 3 倍。
这一结果表明,通过合理的系统架构设计,远程缓存不仅能超越传统的内存约束推理方式,还能显著降低硬件负载与运营成本。
四、背后的技术机制
从理论上看,将缓存转移到远程存储似乎会降低性能——毕竟存储带宽远低于 GPU/CPU 内存。但在实际测试中,LMCache 与 CoreWeave 的协同架构彻底颠覆了这一假设。
- 异步 KV 缓存加载机制
传统系统在请求缓存时,GPU 需等待数据可用后才能继续计算,导致空闲时间增加。
LMCache 采用非阻塞式异步加载机制:在模型推理过程中,当某段缓存尚未取回时,推理引擎继续处理已有 token 的解码操作。LMCache 通过流式加载的方式,在计算与 I/O 之间实现重叠,从而隐藏了存储延迟。

2. 高吞吐远程存储架构
CoreWeave 的对象存储系统在每个 8-GPU 节点上可提供 8.5–10 GB/s 的带宽,足以支撑大规模模型的缓存传输。结合 LMCache 的异步机制,存储延迟被完全掩蔽于 GPU 计算过程之下,实现了如同本地缓存般的连续高效推理体验。
这两项创新共同突破了传统内存边界,使 LLM 推理的扩展能力从硬件限制转向体系结构驱动。
五、面向未来的可扩展推理范式
Cohere、LMCache 与 CoreWeave 的协作标志着企业级大模型优化的范式转变。过去,推理性能提升主要依赖于增加 GPU 数量、扩大集群或优化批处理策略;而如今,随着上下文长度的增长与任务多样性的提升,关键问题变成了:如何让推理更智能,而非仅仅更快?
通过结合 LMCache 的远程缓存机制与 CoreWeave 的高吞吐基础设施,Cohere 展示了在降低内存开销的同时保持甚至提升推理速度的可能性。
这一方案带来了显著的系统收益:
- 会话持久化:缓存可在集群缩放后快速恢复;
- 跨节点可扩展性:缓存数据可在不同推理系统间无缝迁移;
- 更低运营成本:在保持性能的前提下优化资源使用。
对于部署大模型的企业而言,这种能力具有变革意义。Cohere、LMCache 与 CoreWeave 的合作验证了一个新的推理范式:效率来自体系结构智能,而非单纯的算力堆叠。
随着 LLM 的持续演进,这一架构为高性能与可持续 AI 推理提供了新的方向——通过融合先进的缓存系统与高性能云基础设施,全球领先的 AI 平台将实现更快、更轻量且更具经济性的推理体验。
了解更多:

发表评论