LMCache 与 CoreWeave 如何助力 Cohere 突破内存瓶颈，实现高效大模型推理

By Walter Beller-Morales (Cohere), Samuel Shen (Tensormesh), Kishor Aher (CoreWeave)

一、挑战：企业级 AI 的扩展难题

当前，各类企业正竞相将大语言模型（LLM）融入其产品与工作流程。然而，当应用规模扩大时，性能、成本与精度便成为三大核心挑战。企业既需要模型能基于自身数据进行定制，又必须确保数据隐私的安全性。
Cohere 作为领先的企业级 AI 公司，构建了 North 平台，旨在帮助组织安全、有效地利用内部数据以实现检索增强生成（Retrieval-Augmented Generation，RAG）。North 使企业能够将模型输出锚定于可信的私有知识库，从而生成高精度、上下文相关的定制化响应。

在 RAG 场景中，每次查询都会在请求前加上与上下文相关的数据，以便模型生成更贴切的回答。然而，这种方法带来了新的计算负担：大量上下文数据需在每次查询时重新处理，因为这些信息不会更新模型权重，而是仅临时存储于 GPU 缓存中，并在推理完成后被释放。上下文越丰富，模型需处理的 token 越多，对应的 Key-Value（KV）缓存张量也随之膨胀，迅速消耗 GPU/CPU 内存。
这种情况并非 RAG 所独有——无论是工具调用参数、代码片段还是长指令，凡是附加到提示中的内容，都会增加计算负载。而在大规模推理环境中，即使使用如 vLLM 这样高效的引擎，内存占用仍成为性能与成本的瓶颈。

Cohere 工程团队由此思考：能否将 KV 缓存存储在远端，以释放本地内存，同时不牺牲推理速度？
答案来自 LMCache 与 CoreWeave AI Object Storage 的结合——二者协同实现了高性能的远程 KV 缓存，使得大模型在长上下文推理中兼顾低内存占用与高吞吐率。

二、远程 KV 缓存的设计理念

LMCache 重新定义了语言模型管理与存储上下文的方式。
在每一个基于 Transformer 解码器结构的 LLM 中，KV 缓存用于存储跨 token 的隐藏状态，以保持输出连贯性。随着输入长度增长，KV 缓存体积迅速增大，成为主要内存瓶颈。

LMCache 的核心创新在于 远程 KV 缓存架构：
缓存数据不再全部驻留于 GPU 或 CPU 内存，而是被序列化并外部存储，在需要时动态取回。这大幅减轻了推理硬件的内存压力，使得模型可处理更长上下文、同时支持更多会话，并实现更优的资源利用率，且在多数情况下还能进一步提升性能。

要使远程缓存切实可行，存储系统需具备高吞吐与低延迟特性。CoreWeave AI Object Storage 正是为此而生。它专为 AI 负载设计，提供每秒多 GB 级的带宽与 GPU 集群级的弹性扩展能力，确保 KV 数据可被高速卸载、持久化并快速取回。

LMCache 负责缓存序列化与协调，而 CoreWeave 提供分布式性能支撑，二者形成紧密集成的体系结构。这一架构使推理上下文的增长不再受制于内存容量，实现了高灵活性与智能化的可扩展推理范式。

三、基准测试与性能验证

为验证远程缓存的实际表现，LMCache 团队与 Cohere 合作，在 North 平台上使用 CoreWeave AI Object Storage 进行性能基准测试，评估远程缓存下推理速度与效率的变化。

测试模型为 Cohere Command A，运行在 CoreWeave GPU 基础设施上，并采用 vLLM 推理引擎。实验包括三种配置：

Baseline（基线）：完全预填充，无缓存复用；
LMCache + CoreWeave：KV 数据序列化后存储于 CoreWeave 对象存储中，按需取回；
S3 Express（对比组）：作为冷缓存与热缓存条件下的参考性能基线。

主要测试指标包括：

Time to First Token (TTFT)：生成首个 token 所需时间；
Decoding Throughput：完成预填充后每秒生成的 token 数量。

Bar graph comparing Time-to-first-token (TTFT) between 'Without Caching' and 'With LMCache & CoreWeave Object Storage'. The blue bar represents the speed without caching, while the red bar shows the speed with caching. The blue bar is higher, indicating longer TTFT without caching.

A bar chart comparing batched decode speed in tokens per second, showing two conditions: without caching (blue) and with LMCache & CoreWeave Object Storage (red).

测试结果显示：

TTFT 降低 22–32%，响应速度显著提升；
解码吞吐量提升 41%；
冷缓存条件下较 S3 Express 性能提升 1.2 倍；
热缓存条件下性能提升高达 3 倍。

这一结果表明，通过合理的系统架构设计，远程缓存不仅能超越传统的内存约束推理方式，还能显著降低硬件负载与运营成本。

四、背后的技术机制

从理论上看，将缓存转移到远程存储似乎会降低性能——毕竟存储带宽远低于 GPU/CPU 内存。但在实际测试中，LMCache 与 CoreWeave 的协同架构彻底颠覆了这一假设。

异步 KV 缓存加载机制
传统系统在请求缓存时，GPU 需等待数据可用后才能继续计算，导致空闲时间增加。
LMCache 采用非阻塞式异步加载机制：在模型推理过程中，当某段缓存尚未取回时，推理引擎继续处理已有 token 的解码操作。LMCache 通过流式加载的方式，在计算与 I/O 之间实现重叠，从而隐藏了存储延迟。

A diagram comparing blocking-based KV cache loading and asynchronous KV cache loading, showing timelines and GPU computation for multiple queries.

2. 高吞吐远程存储架构
CoreWeave 的对象存储系统在每个 8-GPU 节点上可提供 8.5–10 GB/s 的带宽，足以支撑大规模模型的缓存传输。结合 LMCache 的异步机制，存储延迟被完全掩蔽于 GPU 计算过程之下，实现了如同本地缓存般的连续高效推理体验。

这两项创新共同突破了传统内存边界，使 LLM 推理的扩展能力从硬件限制转向体系结构驱动。

五、面向未来的可扩展推理范式

Cohere、LMCache 与 CoreWeave 的协作标志着企业级大模型优化的范式转变。过去，推理性能提升主要依赖于增加 GPU 数量、扩大集群或优化批处理策略；而如今，随着上下文长度的增长与任务多样性的提升，关键问题变成了：如何让推理更智能，而非仅仅更快？

通过结合 LMCache 的远程缓存机制与 CoreWeave 的高吞吐基础设施，Cohere 展示了在降低内存开销的同时保持甚至提升推理速度的可能性。
这一方案带来了显著的系统收益：

会话持久化：缓存可在集群缩放后快速恢复；
跨节点可扩展性：缓存数据可在不同推理系统间无缝迁移；
更低运营成本：在保持性能的前提下优化资源使用。

对于部署大模型的企业而言，这种能力具有变革意义。Cohere、LMCache 与 CoreWeave 的合作验证了一个新的推理范式：效率来自体系结构智能，而非单纯的算力堆叠。

随着 LLM 的持续演进，这一架构为高性能与可持续 AI 推理提供了新的方向——通过融合先进的缓存系统与高性能云基础设施，全球领先的 AI 平台将实现更快、更轻量且更具经济性的推理体验。

了解更多：

About us

Categories

Tags

LMCache 与 CoreWeave 如何助力 Cohere 突破内存瓶颈，实现高效大模型推理

一、挑战：企业级 AI 的扩展难题

二、远程 KV 缓存的设计理念

三、基准测试与性能验证

四、背后的技术机制

五、面向未来的可扩展推理范式

赞过：

发表评论取消回复

About us

Categories

Tags

LMCache 与 CoreWeave 如何助力 Cohere 突破内存瓶颈，实现高效大模型推理

一、挑战：企业级 AI 的扩展难题

二、远程 KV 缓存的设计理念

三、基准测试与性能验证

四、背后的技术机制

五、面向未来的可扩展推理范式

赞过：

发表评论取消回复

了解 LMCache Blog 的更多信息