登录客服
使用财视扫码登陆 中金二维码

下次自动登录

登录
忘记密码?立即注册

其它账号登录:新浪QQ微信

手机网
首页>>财经>>产业经济>>  正文
精华推荐 财经号
博客 直播

老怪:今日投资消息早知道潘益兵:周二早间市场信息

徐小明:周二大盘操作策略财智:大反弹后防出现分

龙头:反弹预示结构性行情存在灵枝:再次冲刺3100

梦回:盘前聚焦热点板块李清远:围绕3000展开震荡

吴西:此时需寻找低位绩优股纤虹:反弹仍存两大隐忧

拾金客:短期定呈现震荡格局一狼:重点把握三个方向

彬哥:今日重点关注一件事灯塔:今日开盘前参考提示

  • 徐小明 天赢居 寒江钓客 洛阳上官 幽兰行天下
  • 老孙头谈股 秦国安 龍哥论市 蒋律 股海潜蛟
  • 山东虎子 牛家庄 孔明看市 A炼金师 先知窝窝
  • 灵枝 旗帜先明 短线高手 牛传千股 龙头1988
  • 鸿牛 短线王 律动天成 海西一狼 五域论湛
  • 狗蛋 李博文 波段龙一 股市猎枪 涨停板老黄
  • MORE图说财经

    京东云自研推理引擎来了!推理成本直降90%

    2025-06-23 18:13:17 来源:中金在线
      随着DeepSeek等大模型能力越来越强,应用场景快速扩展,如何在确保输出精度的前提下,优化推理速度、吞吐量及资源利用率,是企业实际使用大模型时面临的挑战。

      京东云自研JoyBuild推理引擎,基于Prefill-Decode分离架构进行计算密集型和访存密集型任务的分离,并结合专家并行和负载均衡技术,实现MoE模型推理成本降低90%。结合自研云海AI存储实现KV缓存的高效存储和检索,通过以存代算进一步降低推理成本,对于智能编码和智能体等场景缓存命中率达到60%以上。

      
    京东云自研推理引擎来了!推理成本直降90% 


      1、大模型能力持续提升,带动推理需求快速增长

      DeepSeek一石激起千层浪,大模型纷纷开源,而Llama、Gemma等主流开源模型也在加速发布新版本,更强大的模型能力,为推理场景的大范围应用落地筑牢了基础。IDC发布《2025年中国人工智能计算力发展评估报告》显示,推理服务器的占比将大幅提高,预计到2028年,推理工作负载占比将会达到73%。

      相较于训练阶段,推理更侧重效率、延迟、吞吐量及部署可控性,是影响生产环境性能、成本和用户体验的核心环节,当前,大模型推理面临着几大挑战。

      首先,大模型参数规模不断增加,对算力需求持续提升,单纯依靠硬件堆叠会使成本压力剧增,而随着场景和流程越发复杂,有的业务已经需要128K级别的KV缓存存取,对带宽和延迟都提出严苛考验。

      其次,不同场景对推理性能指标要求差异显著。如智能客服、对话系统等场景需即时反馈,对时延要求严格;视频生成场景需批量输出,对吞吐率要求较高,推理引擎需要针对这些差异场景实现针对性优化。

      此外,面对海外高性能芯片供给受阻,更多国产GPU都可以支持大模型,异构算力正在成为主流,不同芯片在指令集、运行时环境等方面存在差异,推理引擎需要根据不同硬件进行优化,涉及算子适配、通信库适配、设备驱动适配等多个方面。

      2、京东云自研JoyBuild推理引擎,三大核心特性为AI提效

      京东云推出JoyBuild推理引擎,通过高效KV缓存机制、PD分离与编译优化、异构算力高效适配,大幅提升推理性能,支持支持统一管理异构GPU/CPU集群,内核驱动优化单服务器性能提升50%,实现高效推理降本。

      在高效KV缓存机制方面,JoyBuild推理引擎基于京东云自研的云海AI存储实现了高效KV缓存,以存代算显著提升了推理性能,长文/多轮对话响应延迟降低 60%。并可根据请求内容做负载均衡,通过多Token预测提升推理吞吐速度超100%。

      在PD分离与编译优化方面,JoyBuild推理引擎通过PD分离架构,实现PD实例间流水线式异步通信,减少KVcache传输时延;将不同专家部署在不同GPU上,实现MOE专家的分布式推理,提升高并发下的并行度;深度的算子和图层面的优化,并结合计算图技术极大的降低了CPU和GPU交互开销,整体吞吐提升30%以上。

      在异构算力适配管理方面,支持对多元异构算力资源的统一管理,创新的GPU算力切分池化技术,内核级1%算力和MB级显存的细粒度切分,GPU利用率最高提升70%。同时JoyBuild推理引擎支持基于昇腾集群的Prefill服务和N卡集群Decode服务架构,充分利用不同服务器优势,进一步降低模型推理成本。

      大模型推理的突破需依赖 "算法 - 硬件 - 场景" 的全栈优化,通过强化学习和动态推理提升算法效率,利用软硬件协同和分布式部署突破硬件限制,结合模型压缩和边缘计算实现场景落地。面向未来,京东云将持续在MoE 模型推理、多模态泛化、自适应计算等领域深入探索,以实现推理效率与泛化能力的双重跃升。

    热门搜索

    为您推荐