华为昇腾、阿里平头哥、沐曦、壁仞:四大国产GPU可以在一路了,
2026-03-08 15:35:30
3月8日消息,上海人工智能实验室(上海AI实验室)官方宣布,基于此前的DeepLink混训技术方案、跨千公里多智算中心长稳混训千亿参数大模型,正式推出DeepLink多元算力混合推理加速方案,实现了对华为昇腾、沐曦、阿里平头哥、壁仞等多款国产GPU芯片的混合调度与协同推理。
据悉,DeepLink混推方案基于统一推理中间件、低时延通信、智能流量路由、策略求解器等原创技术,不仅可对多款芯片混合调度与协同推理,性能也大幅提升,对比单一芯片方案,推理时延TTFT最大可优化34.5%,推理吞吐最大可提升32%。

近些年,国产AI GPU如雨后春笋,性能越来越强,但一方面都是各自为战,另一方面大模型推理技术也需要深入优化和提升。
上海AI实验室在国产GPU异构算力中,运用了预填充-解码分离(PD分离)策略,验证了混合芯片高效协同推理的路径。
同一数据中心内不同规格属性的GPU芯片组合优化使用,可以形成最具性价比的异构算力配比。
具体实现上,上海AI实验室通过四大原创技术底座,实现了对异构算力资源的兼容调度。
推理中间件(DLInfer):
以标准化融合算子接口打通上层框架与底层硬件壁垒,实现算法模型在多元硬件上的统一推理,降低应用门槛。
高速通信库(DLSlime):
全面兼容各类主流物理连接协议,实现跨架构设备高速互联,核心场景带宽利用率突破97%;具有较强的异步处理能力,可实现计算与通信的重叠。
智能流量路由系统(DLRouter):
支持KVCache感知的请求路由,最大限度减少重复或重叠请求,节省计算资源,实现分布式集群负载均衡分配。
策略求解器(DLSolver):
自动获取异构芯片全方位评测数据,结合模型配置以及用户服务等级目标等输入,匹配最优PD分离配置策略,兼顾推理性能与成本。


单一算力平台推理加速方面,可以实现在华为昇腾A2上,针对千卡规模下的化学数据生成场景,吞吐率提升61.9%;在沐曦曦云C500上,MinerU多模态生成推理加速60%。
多款国产GPU芯片的深度混合调度与协同推理方面,千卡规模推理集群实测数据表明,在多模态生成、高并发智能服务等典型场景下,比单芯片方案推理时延TTFT最大可优化34.5%;
在科学论文处理等长输入短输出推理任务中,推理吞吐可提升32%。

值得一提的是,除了以上四家,寒武纪、燧原科技、天数智芯、无问芯穹、商汤科技、中科曙光等也都是上海AI实验室和DeepLink技术方案的合作伙伴。
相信会看到越来越多的国产GPU并肩战斗!
参考链接:
DeepLink官网:https://deeplink.org.cn/home
DeepLink Github:https://github.com/DeepLink-org
DLInfer仓库:https://github.com/DeepLink-org/dlinfer
DLSlime仓库:https://github.com/DeepLink-org/DLSlime
DeepLink合作伙伴
相关阅读
-
ps无痕偏移图片怎么操作?ps无痕偏移图片操作方法资讯百科 2026-03-08 15:34:01
-
泰达币盈利思路:如何在稳定币市场中寻找利润机会区块链快讯 2026-03-08 15:33:23
-
MA移动平均线入门:5MA、20MA、99MA看虚拟货币趋势区块链快讯 2026-03-08 15:33:17
-
深度解析扣扣传媒视频永久免费直播视频软件的优越性与使用体验金融科技前沿 2026-03-08 15:26:04
-
房东先生这是第 6 次付房租了:这次又会有怎样的故事发生呢资讯百科 2026-03-08 15:25:24
-
探索西瓜视频免费:直播视频软件的全新体验区块链快讯 2026-03-08 15:25:04
-
美国龙卷风后一对母女在车内身亡 车辆被龙卷风完全撕碎金融科技前沿 2026-03-08 15:21:20
-
驱动精灵怎么关闭上网代理?驱动精灵关闭上网代理方法资讯百科 2026-03-08 15:17:07
-
XAUUSDc是什么意思?深度解析黄金和美元之间的关系及其交易价值区块链快讯 2026-03-08 15:16:32
-
OKX 交易所是什么?安全性解析、三大 OKX 诈骗手法解读(2025 最新)区块链快讯 2026-03-08 15:16:11