第三方实测验证
北京信息科技大学 · 华为昇腾 Atlas 910B 平台 · 7 项指标全面领先。
SETUP
可复现的实测设置
客观、可检验:独立第三方、明确平台、明确基线。
| 项目 | 内容 |
|---|---|
| 测评方 | 北京信息科技大学(独立第三方) |
| 测试平台 | 华为昇腾 Atlas 910B |
| 对照基线 | NFS 网络存储(NFS over TCP,10GbE,约 1.25 GB/s) |
| 中科DPU 链路 | NVMe-oF over RDMA / RoCE(2×200GbE,线速约 50 GB/s) |
| 覆盖指标 | 推理加载 / 服务、训练读写、Token 效率,共 7 项 |
INFERENCE
大模型推理:加载与服务提速
上线 / 切换从“分钟级”进入“秒级”。
| 模型 | 中科DPU 加载 | NFS 加载 | 加载提速 | 耗时降幅 | 服务整体提速 |
|---|---|---|---|---|---|
| DeepSeek-32B | 6.62 s | 563.85 s | 85.17× | 98.83% | 6.17× |
| DeepSeek-70B | 35.38 s | 1284.66 s | 36.31× | 97.25% | 9.33× |
TRAINING
训练:权重与 Checkpoint 读写
Checkpoint 越频繁、模型越大,省下的 GPU 空转时间越多。
| 测试项 | 中科DPU | NFS 基线 | 提速倍数 | 耗时降幅 |
|---|---|---|---|---|
| 模型加载 | 12.72 s | 140.23 s | 11.02× | 90.93% |
| 模型保存 | 31.16 s | 165.87 s | 5.32× | 81.21% |
| Checkpoint 加载 | 10.55 s | 131.37 s | 12.45× | 91.97% |
| Checkpoint 保存 | 81.94 s | 451.14 s | 5.51× | 81.84% |
THROUGHPUT
推理 Token 产出效率(= GPU 有效利用率)
切换越频繁,差距越大。
| 模型切换频率 | 中科DPU 利用率 | NFS 利用率 | 相对提升 |
|---|---|---|---|
| 10 次/日 | 99.8% | 80.4% | +24.1% |
| 20 次/日 | 99.5% | 60.8% | +63.6% |
| 40 次/日 | 99.1% | 21.7% | +356.9% |
结论
在 北京信息科技大学 的独立实测中,中科DPU WS5000 推理加载最高提速约 85×、训练读写提速 5–12×、Token 效率最高相对提升 +357%;7 项指标中位降幅 90.9%——可复现、可验证。S38