核心技术
存算分离:把存储解耦成可独立扩展的全闪池,用高速无损网络与算力池互联。
DISAGGREGATION
存算分离架构
算力池 ⟷ 高速无损网络 ⟷ 全闪存储池,三者独立弹性扩展。
GPU 算力池
GPU / NPU 节点
昇腾 Atlas 910B
训练 · 推理框架(无感接入)
高速无损网络
NVMe-oF · RDMA / RoCE
NVMe-oF · RDMA / RoCE
全闪存储池
EBOF 全闪阵列
CPFS 并行文件系统
KV Cache 加速层
数据在存储与 GPU 显存间直达,算力与容量独立弹性扩展。
FOUR PILLARS
四大关键技术
每一项都直接对应一段被压缩的数据路径。
NVMe-oF over RDMA / RoCE
以远程直接内存访问承载 NVMe 协议,绕开冗余拷贝,逼近本地盘性能。
GPUDirect 直通
数据在存储与 GPU 显存间直达,缩短数据路径、降低 CPU 与时延开销。
全闪 EBOF 架构
去控制器高密度闪存池,带宽与 IOPS 随容量近线性扩展,功耗更低。
KV Cache 加速调度
面向长上下文 / 高频切换推理,卸载与复用 KV Cache,显著提升 GPU 有效利用率。
KV Cache 为什么是推理降本关键
推理时长上下文与多模型切换会反复重建 KV Cache,吃显存、占时间。把 KV Cache 卸载 / 复用到高速存储,行业与内部测试显示在线场景最高可降本约 73.7%。S5
VS. NFS
与传统 NFS 基线对比
同一昇腾平台、同一负载下的第三方实测对比(节选)。
| 指标 | 传统 NFS 基线 | 中科DPU WS5000 | 提升 |
|---|---|---|---|
| DeepSeek-32B 模型加载 | 563.85 s | 6.62 s | 85.17× |
| 训练 Checkpoint 加载 | 131.37 s | 10.55 s | 12.45× |
| Token 有效产出(40 次/日切换) | 21.7% | 99.1% | +356.9% |
国产可控适配
面向华为昇腾等国产算力底座深度优化,主流加速卡适配率 90%+;AMD、超聚变平台适配测试推进中(以最终报告为准)。满足政企 / 智算中心自主可控诉求。