
支持昇腾NPU
我们高兴地宣布,随着 LMCache-Ascend 插件的发布,LMCache 现已正式支持昇腾NPU。该插件覆盖从云端到边缘的全场景昇腾计算平台,此次重大的平台扩展彰显了LMCache的核心承诺——在多样化硬件生态中提供领先性能,让开发者无需大量修改代码,即可在任意环境部署高性能大语言模型(LLM)服务。
赋能昇腾云端与边缘部署
此次集成将为昇腾云用户及部署Atlas服务器等边缘设备的团队带来即时价值:
- 昇腾云用户:在昇腾云上运行问答、内容生成、代码补全等LLM服务的企业,可轻松部署LMCache-Ascend插件。其服务不仅能借助昇腾NPU的原生计算能力,还能通过缓存技术降低延迟,提升每美元每秒请求数。
- 边缘与本地部署:针对Atlas 200模块、Atlas 300卡及Atlas 800服务器,LMCache-Ascend可在资源受限的边缘环境中支持更大规模模型。通过降低稳定态计算需求,它能减少功耗和响应时间,为自动驾驶、工业检测、机器人等场景提供实时推理能力。
插件工作原理
LMCache-Ascend 采用运行时猴子补丁(monkey-patching)技术,无缝接管关键子系统。该技术能动态替换LMCache核心组件,主要包含两项关键更新:其一,替换标准PyTorch/C++操作绑定——正如之前所述,通过torch_npu后端和昇腾计算语言(ACL)API调用昇腾NPU专用内核,释放硬件原生性能;其二,为昇腾架构定制专属内存管理系统,确保数据以最高效的方式在NPU中分配和处理。这种简洁的架构既实现了深度硬件定制优化,又保持100% API兼容性,无需修改现有LMCache代码。
可用性说明
LMCache对昇腾NPU的支持现已进入公开测试阶段。开发者可通过官方 LMCache-Ascend GitHub仓库 获取兼容昇腾的版本、示例代码及部署文档。
了解更多LMCache-Ascend详情:LMCache-Ascend Wiki
获取LMCache-Ascend测试版及集成指南:LMCache-Ascend
了解更多昇腾相关信息:昇腾官方网站
未来规划
与昇腾NPU的集成为我们打造全面高性能AI加速平台奠定了重要里程碑。未来,我们将持续深化与昇腾开发者及整个昇腾生态的合作,路线图包括进一步优化PD分离机制、支持最新昇腾硬件、增强多节点缓存能力。我们始终致力于让LMCache成为跨硬件的顶级AI推理缓存解决方案,让开发者能专注于打造下一代AI应用。
致谢
这一成果的达成离不开合作伙伴与内部团队的支持。我们衷心感谢华为欧拉团队及其他昇腾开发者的贡献,包括但不限于以下人员:

发表评论