LMCache Lab: 只针对prefilling阶段？我们把decoding阶段的延迟也省去60%！

[2025年7月23日]() [Benchmark](https://blog.lmcache.ai/en/category/benchmark/), [decoding](https://blog.lmcache.ai/en/tag/decoding-en/), [spec decode](https://blog.lmcache.ai/en/tag/spec-decode-en/), [speculative](https://blog.lmcache.ai/en/tag/speculative-en/)

作者：Kuntai Du

简要总结：🚀LMCache Lab 通过投机解码技术，将代码/文本编辑任务中的解码延迟降低了60%！⚡

—

你可能是因为 KV cache优化而认识了 LMCache Lab——它让LLM的prefilling变得轻而易举。但这并不是全部！我们现在也专注于加速decoding阶段，让你的LLM智能体生成新内容的速度再上一个台阶。换句话说：在同样的工作量下，你可以少租几台机器，从而省下 LLM 服务的账单。🎉:money_with_wings:

我们在decoding阶段做了哪些优化？

我们发现，投机解码可以将代码和文本编辑任务中的token生成时间（即每个输出token的耗时）减少 60%！为什么？因为文本/代码编辑任务经常会复用已经存在的词组，而投机解码正是利用这一点来加速生成过程。放心——投机解码不会改变你的输出结果，只会让你更快得到它们！

Benchmarks:bar_chart:

我们通过热门开源项目 vLLM 中 Python 文件的docstrings对投机解码进行了测试。结果如下：

A bar chart comparing the time per output token in milliseconds for DeepInfra, Fireworks, vLLM without speculative decoding, and vLLM with speculative decoding, highlighting a 60% reduction in time for vLLM with speculative decoding.

投机采样性能对比：相比于未使用投机采样的VLLM性能提升了60%

实现:wrench:

我们并不会止步于此！我们也注意到，当请求陡然增加时，速度提升会略有下降：

A bar chart illustrating the reduction in time per output token for vLLM using and not using speculative decoding, highlighting a 60% reduction in processing time.

当请求陡然增加时，速度提升会略有下降

因此，我们将投机解码作为early access功能发布，并会持续开发自动化方案，帮你把它的潜力榨到极致。

想要试试吗？:raised_hands:

想在自己的应用里立刻体验？我们全新的一键部署平台LMIgnite，让你零门槛体验LMCache Lab 的最新技术——既可以用你自己的云主机，也能接本地集群！[立即注册](https://lmignite.tensormesh.ai/)，抢先享受提速与省钱双重福利，并在投机解码功能上线的第一时间收到通知！

About us

Categories

Tags

LMCache Lab: 只针对prefilling阶段？我们把decoding阶段的延迟也省去60%！

赞过：

发表评论取消回复

About us

Categories

Tags

LMCache Lab: 只针对prefilling阶段？我们把decoding阶段的延迟也省去60%！

赞过：

发表评论取消回复

了解 LMCache Blog 的更多信息