THE BOTTLENECK
买了顶级 GPU,却在“等数据”
大模型时代,单纯堆叠 GPU 的边际收益快速下降。真正的瓶颈在数据供给侧——模型加载、Checkpoint 读写、KV Cache 调度。
算力被存储拖累
全国智算中心平均利用率不足 60%,I/O 受限场景有效 GPU 利用率常仅 30–50%。S11
存储成为隐形瓶颈
传统 NFS / 集中式存储带宽有限,GPU 频繁“等数据”;越大的模型,穿越存储层级的代价越高。
把存储变成算力放大器
中科DPU 以存算分离把存储从“配角”升级为“算力放大器”,GPU 利用率提升 2–3×。S4
WS5000
WS5000 全闪加速存储算力一体机
面向 AI 训练 / 推理的高性能一体机。存算分离 + 端到端高速数据通路,不改上层框架即可显著提升算力有效利用率、大幅降低数据中心总拥有成本。
- ✓聚合带宽 300 GB/s、随机 IOPS 5,000 万、时延 20 μs
- ✓主流 GPU 适配率 90%+,面向华为昇腾等国产算力底座深度适配
- ✓开箱即用,48-72 小时快速部署;综合成本下降约 40%
- ✓四大核心技术:NVMe-oF/RDMA、GPUDirect、全闪 EBOF、KV Cache 加速调度
INDEPENDENT VALIDATION
可复现的第三方实测
北京信息科技大学 在 华为昇腾 Atlas 910B 平台、以 NFS 为基线开展独立实测,7 项指标全面领先。
85.17×
DeepSeek-32B 推理加载提速
563.85s → 6.62s(降幅 98.83%)
9.33×
DeepSeek-70B 推理服务提速
端到端服务整体口径
5.3–12.5×
训练 / Checkpoint 读写提速
权重与 Checkpoint 读写
+356.9%
Token 有效产出提升
每日切换 40 次的高频场景
SOLUTIONS
四大场景,一套存算分离能力
从新建集群到存量改造,从训练到推理,覆盖 AI 算力基础设施建设全周期。
大模型训练集群
加速模型加载与 Checkpoint 读写,缩短训练迭代周期,减少 GPU 空转。
大模型推理服务
长上下文与多模型高频切换场景,显著提升 GPU 有效利用率。
智算中心 / 国产底座
存算分离 + 昇腾深度适配,支撑自主可控的算力基础设施。
存量数据中心改造
不更换 GPU、不停机提速,盘活存量算力资产。
ECOSYSTEM
生态与确定性
已验证 · 可量产 · 有生态
华为昇腾立讯精密 代工北京信息科技大学国产 GPU 90%+AMD(适配在测)超聚变(适配在测)
对外口径纪律
对外口径纪律:“已落地”与“推进中”如实区分——第三方实测与量产代工为已落地;AMD、超聚变平台适配测试为推进中(以最终报告为准)。