About us

Categories

Tags

Follow us on: X, LinkedIn

Initiated and Officially Supported by Tensormesh

LMCache Lab: 只针对prefilling阶段?我们把decoding阶段的延迟也省去60%!

By

LMCache Team

[2025年7月23日]() [Benchmark](https://blog.lmcache.ai/en/category/benchmark/), [decoding](https://blog.lmcache.ai/en/tag/decoding-en/), [spec decode](https://blog.lmcache.ai/en/tag/spec-decode-en/), [speculative](https://blog.lmcache.ai/en/tag/speculative-en/)

作者:Kuntai Du

简要总结:🚀LMCache Lab 通过投机解码技术,将代码/文本编辑任务中的解码延迟降低了60%!⚡

你可能是因为 KV cache优化而认识了 LMCache Lab——它让LLM的prefilling变得轻而易举。但这并不是全部!我们现在也专注于加速decoding阶段,让你的LLM智能体生成新内容的速度再上一个台阶。换句话说:在同样的工作量下,你可以少租几台机器,从而省下 LLM 服务的账单。🎉:money_with_wings:

我们在decoding阶段做了哪些优化?

我们发现,投机解码可以将代码和文本编辑任务中的token生成时间(即每个输出token的耗时)减少 60%!为什么?因为文本/代码编辑任务经常会复用已经存在的词组,而投机解码正是利用这一点来加速生成过程。放心——投机解码不会改变你的输出结果,只会让你更快得到它们!

Benchmarks:bar_chart:

我们通过热门开源项目 vLLM 中 Python 文件的docstrings对投机解码进行了测试。结果如下:

A bar chart comparing the time per output token in milliseconds for DeepInfra, Fireworks, vLLM without speculative decoding, and vLLM with speculative decoding, highlighting a 60% reduction in time for vLLM with speculative decoding.

投机采样性能对比:相比于未使用投机采样的VLLM性能提升了60%

实现:wrench:

我们并不会止步于此!我们也注意到,当请求陡然增加时,速度提升会略有下降:

A bar chart illustrating the reduction in time per output token for vLLM using and not using speculative decoding, highlighting a 60% reduction in processing time.

当请求陡然增加时,速度提升会略有下降

因此,我们将投机解码作为early access功能发布,并会持续开发自动化方案,帮你把它的潜力榨到极致。

想要试试吗?:raised_hands:

想在自己的应用里立刻体验?我们全新的一键部署平台LMIgnite,让你零门槛体验LMCache Lab 的最新技术——既可以用你自己的云主机,也能接本地集群![立即注册](https://lmignite.tensormesh.ai/),抢先享受提速与省钱双重福利,并在投机解码功能上线的第一时间收到通知!

发表评论

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理

了解 LMCache Blog 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读