[2025年7月23日]() [Benchmark](https://blog.lmcache.ai/en/category/benchmark/), [decoding](https://blog.lmcache.ai/en/tag/decoding-en/), [spec decode](https://blog.lmcache.ai/en/tag/spec-decode-en/), [speculative](https://blog.lmcache.ai/en/tag/speculative-en/)
作者:Kuntai Du
简要总结:🚀LMCache Lab 通过投机解码技术,将代码/文本编辑任务中的解码延迟降低了60%!⚡
—
你可能是因为 KV cache优化而认识了 LMCache Lab——它让LLM的prefilling变得轻而易举。但这并不是全部!我们现在也专注于加速decoding阶段,让你的LLM智能体生成新内容的速度再上一个台阶。换句话说:在同样的工作量下,你可以少租几台机器,从而省下 LLM 服务的账单。🎉:money_with_wings:
我们在decoding阶段做了哪些优化?
我们发现,投机解码可以将代码和文本编辑任务中的token生成时间(即每个输出token的耗时)减少 60%!为什么?因为文本/代码编辑任务经常会复用已经存在的词组,而投机解码正是利用这一点来加速生成过程。放心——投机解码不会改变你的输出结果,只会让你更快得到它们!
Benchmarks:bar_chart:
我们通过热门开源项目 vLLM 中 Python 文件的docstrings对投机解码进行了测试。结果如下:

投机采样性能对比:相比于未使用投机采样的VLLM性能提升了60%
实现:wrench:
我们并不会止步于此!我们也注意到,当请求陡然增加时,速度提升会略有下降:

当请求陡然增加时,速度提升会略有下降
因此,我们将投机解码作为early access功能发布,并会持续开发自动化方案,帮你把它的潜力榨到极致。
想要试试吗?:raised_hands:
想在自己的应用里立刻体验?我们全新的一键部署平台LMIgnite,让你零门槛体验LMCache Lab 的最新技术——既可以用你自己的云主机,也能接本地集群,抢先享受提速与省钱双重福利,并在投机解码功能上线的第一时间收到通知!

发表评论