随着DeepSeek等大模型能力越来越强,应用场景快速扩展,如何在确保输出精度的前提下,优化推理速度、吞吐量及资源利用率,是企业实际使用大模型时面临的挑战。
京东云自研JoyBuild推理引擎,基于Prefill-Decode分离架构进行计算密集型和访存密集型任务的分离,并结合专家并行和负载均衡技术,实现MoE模型推理成本降低90%。结合自研云海AI存储实现KV缓存的高效存储和检索,通过以存代算进一步降低推理成本,对于智能编码和智能体等场景缓存命中率达到60%以上。

1、大模型能力持续提升,带动推理需求快速增长
DeepSeek一石激起千层浪,大模型纷纷开源,而Llama、Gemma等主流开源模型也在加速发布新版本,更强大的模型能力,为推理场景的大范围应用落地筑牢了基础。IDC发布《2025年中国人工智能计算力发展评估报告》显示,推理服务器的占比将大幅提高,预计到2028年,推理工作负载占比将会达到73%。
相较于训练阶段,推理更侧重效率、延迟、吞吐量及部署可控性,是影响生产环境性能、成本和用户体验的核心环节,当前,大模型推理面临着几大挑战。
首先,大模型参数规模不断增加,对算力需求持续提升,单纯依靠硬件堆叠会使成本压力剧增,而随着场景和流程越发复杂,有的业务已经需要128K级别的KV缓存存取,对带宽和延迟都提出严苛考验。
其次,不同场景对推理性能指标要求差异显著。如智能客服、对话系统等场景需即时反馈,对时延要求严格;视频生成场景需批量输出,对吞吐率要求较高,推理引擎需要针对这些差异场景实现针对性优化。
此外,面对海外高性能芯片供给受阻,更多国产GPU都可以支持大模型,异构算力正在成为主流,不同芯片在指令集、运行时环境等方面存在差异,推理引擎需要根据不同硬件进行优化,涉及算子适配、通信库适配、设备驱动适配等多个方面。
2、京东云自研JoyBuild推理引擎,三大核心特性为AI提效
京东云推出JoyBuild推理引擎,通过高效KV缓存机制、PD分离与编译优化、异构算力高效适配,大幅提升推理性能,支持支持统一管理异构GPU/CPU集群,内核驱动优化单服务器性能提升50%,实现高效推理降本。
在高效KV缓存机制方面,JoyBuild推理引擎基于京东云自研的云海AI存储实现了高效KV缓存,以存代算显著提升了推理性能,长文/多轮对话响应延迟降低 60%。并可根据请求内容做负载均衡,通过多Token预测提升推理吞吐速度超100%。
在PD分离与编译优化方面,JoyBuild推理引擎通过PD分离架构,实现PD实例间流水线式异步通信,减少KVcache传输时延;将不同专家部署在不同GPU上,实现MOE专家的分布式推理,提升高并发下的并行度;深度的算子和图层面的优化,并结合计算图技术极大的降低了CPU和GPU交互开销,整体吞吐提升30%以上。
在异构算力适配管理方面,支持对多元异构算力资源的统一管理,创新的GPU算力切分池化技术,内核级1%算力和MB级显存的细粒度切分,GPU利用率最高提升70%。同时JoyBuild推理引擎支持基于昇腾集群的Prefill服务和N卡集群Decode服务架构,充分利用不同服务器优势,进一步降低模型推理成本。
大模型推理的突破需依赖 "算法 - 硬件 - 场景" 的全栈优化,通过强化学习和动态推理提升算法效率,利用软硬件协同和分布式部署突破硬件限制,结合模型压缩和边缘计算实现场景落地。面向未来,京东云将持续在MoE 模型推理、多模态泛化、自适应计算等领域深入探索,以实现推理效率与泛化能力的双重跃升。