我们很高兴地宣布,Nvidia Dynamo 已经集成了[LMCache](LMCache/LMCache: Supercharge Your LLM with the Fastest KV Cache Layer)作为[KV Cache层解决方案](LMCache Integration in Dynamo — NVIDIA Dynamo Documentation):tada: :tada::clap::clap:。这是一个重要的里程碑时刻:Dynamo获得了一个久经考验的缓存解决方案,LMCache成为数据中心级推理平台的一部分,被全球许多开发人员用于大规模部署人工智能应用。

有关Dynamo的KV Cache优化功能的全面详细信息,请参阅NVIDIA开发者博客关于减少KV Cache瓶颈的文章。
为什么KV Cache很重要?
KV Cache是现代LLM推理的基础优化。KV Cache允许复用以前计算过的key/Value,而不用为每个新请求重新计算昂贵的Prefill阶段。这种复用跳过了大部分的Prefill计算,大大减少了端到端延迟,同时提高了吞吐量和效率。
我们在早期的文章中已经详细探讨过这一点,比如我们的[博客](How LMCache Turbocharges Enterprise LLM Inference Frameworks | LMCache blog website),在该博客中我们展示了KV Cache复用不仅如何加速单个请求的延迟,还能实现更高效的多轮交互以及更高的集群利用率。
由于 Dynamo 现在支持将 LMCache 作为缓存层,这些优势在 Dynamo 平台中成为了首要特性。
这次集成合作带来了什么?
这种合作主要集中在两个技术方面:
1. KV Cache 卸载和复用
默认情况下,KV Cache存储在GPU内存中,这限制了规模和上下文持久性。通过这种集成,Dynamo现在可以使用LMCache将KV Cache卸载到外部存储层,同时保持跨请求的高效重用。此集成可在Dynamo仓库上获得:ai-dynamo/ Dynamo #2079.
这种结合可以实现如下场景:
- 跨多个会话甚至推理引擎重用KV Cache。
- 释放 GPU 内存以进行主动计算,同时将上下文缓存到外部。
- 通过持久化和重新加载KV Cache段来降低长上下文模型的Prefill成本。
2. KV Cache 存储后端
除了卸载KV cache外,Dynamo 和 LMCache 现在支持灵活的存储后端。例如,NiXL 存储后端针对LLM工作负载进行了优化,提供高吞吐量、低延迟的访问。LMCache 存储库中现已提供 NiXL 支持:LMCache/LMCache#1223
这将解锁更高级的工作流程:
- 应用程序重启后缓存依然持久存在。
- 混合缓存策略(GPU 内存 + CPU 内存 + SSD),以平衡速度和成本。
技术参考
若要深入了解其动机、设计范围和集成细节,请参阅英伟达官方关于LMCache集成的Dynamo文档。
如需了解更多关于 Dynamo 如何减少KV Cache瓶颈的技术细节,以及此次集成的更广泛背景,请查看 NVIDIA 开发者博客上关于使用 Dynamo 进行KV Cache优化的文章。
未来展望
我们很高兴看到开发者和企业如何在生产中采用这种集成。随着KV cache在整个行业成为一种标准做法。LMCache 与 Dynamo 的集成确保了生态系统能够运行得更快、服务更多用户,并提供低延迟的人工智能应用程序。
我们与 Dynamo 团队共同为大规模大语言模型(LLM)推理构建一个更高效、灵活且具成本效益的KV Cache层奠定基础。
致谢
特别感谢 Vikram Mailthody, Harry Kim, Ashutosh Malegaonkar, Suman Taitraju, Richard Huo, Omri Kahalon, Vishwanath Venkatesan, Adit Ranadive, Pen Chung Li, John Kim, and David Edelsohn 以及与他们密切合作的来自 TensorMesh 的 LMCache 贡献者。

发表评论