京东云自研推理引擎来了！推理成本直降90%_产业经济_财经

首页>>财经>>产业经济>> 正文

MORE图说财经

京东云自研推理引擎来了！推理成本直降90%

2025-06-23 18:13:17 来源:中金在线

　　随着DeepSeek等大模型能力越来越强，应用场景快速扩展，如何在确保输出精度的前提下，优化推理速度、吞吐量及资源利用率，是企业实际使用大模型时面临的挑战。

　　京东云自研JoyBuild推理引擎，基于Prefill-Decode分离架构进行计算密集型和访存密集型任务的分离，并结合专家并行和负载均衡技术，实现MoE模型推理成本降低90%。结合自研云海AI存储实现KV缓存的高效存储和检索，通过以存代算进一步降低推理成本，对于智能编码和智能体等场景缓存命中率达到60%以上。

　　

　　1、大模型能力持续提升，带动推理需求快速增长

　　DeepSeek一石激起千层浪，大模型纷纷开源，而Llama、Gemma等主流开源模型也在加速发布新版本，更强大的模型能力，为推理场景的大范围应用落地筑牢了基础。IDC发布《2025年中国人工智能计算力发展评估报告》显示，推理服务器的占比将大幅提高，预计到2028年，推理工作负载占比将会达到73%。

　　相较于训练阶段，推理更侧重效率、延迟、吞吐量及部署可控性，是影响生产环境性能、成本和用户体验的核心环节，当前，大模型推理面临着几大挑战。

　　首先，大模型参数规模不断增加，对算力需求持续提升，单纯依靠硬件堆叠会使成本压力剧增，而随着场景和流程越发复杂，有的业务已经需要128K级别的KV缓存存取，对带宽和延迟都提出严苛考验。

　　其次，不同场景对推理性能指标要求差异显著。如智能客服、对话系统等场景需即时反馈，对时延要求严格；视频生成场景需批量输出，对吞吐率要求较高，推理引擎需要针对这些差异场景实现针对性优化。

　　此外，面对海外高性能芯片供给受阻，更多国产GPU都可以支持大模型，异构算力正在成为主流，不同芯片在指令集、运行时环境等方面存在差异，推理引擎需要根据不同硬件进行优化，涉及算子适配、通信库适配、设备驱动适配等多个方面。

　　2、京东云自研JoyBuild推理引擎，三大核心特性为AI提效

　　京东云推出JoyBuild推理引擎，通过高效KV缓存机制、PD分离与编译优化、异构算力高效适配，大幅提升推理性能，支持支持统一管理异构GPU/CPU集群，内核驱动优化单服务器性能提升50%，实现高效推理降本。

　　在高效KV缓存机制方面，JoyBuild推理引擎基于京东云自研的云海AI存储实现了高效KV缓存，以存代算显著提升了推理性能，长文/多轮对话响应延迟降低 60%。并可根据请求内容做负载均衡，通过多Token预测提升推理吞吐速度超100%。

　　在PD分离与编译优化方面，JoyBuild推理引擎通过PD分离架构，实现PD实例间流水线式异步通信，减少KVcache传输时延；将不同专家部署在不同GPU上，实现MOE专家的分布式推理，提升高并发下的并行度；深度的算子和图层面的优化，并结合计算图技术极大的降低了CPU和GPU交互开销，整体吞吐提升30%以上。

　　在异构算力适配管理方面，支持对多元异构算力资源的统一管理，创新的GPU算力切分池化技术，内核级1%算力和MB级显存的细粒度切分，GPU利用率最高提升70%。同时JoyBuild推理引擎支持基于昇腾集群的Prefill服务和N卡集群Decode服务架构，充分利用不同服务器优势，进一步降低模型推理成本。

　　大模型推理的突破需依赖 "算法 - 硬件 - 场景" 的全栈优化，通过强化学习和动态推理提升算法效率，利用软硬件协同和分布式部署突破硬件限制，结合模型压缩和边缘计算实现场景落地。面向未来，京东云将持续在MoE 模型推理、多模态泛化、自适应计算等领域深入探索，以实现推理效率与泛化能力的双重跃升。

MORE图说财经

京东云自研推理引擎来了！推理成本直降90%

热门搜索

为您推荐