PRODUCT TRAINING · 内部培训

中科DPU WS5000 产品培训

全闪加速存储算力一体机 · 融合 AI 算力中心完整模块 · 面向全体相关团队

300 GB/s单机聚合带宽
5000 万随机 IOPS
7 项第三方实测中位降幅 90.9%
WS5000已定型量产
ABOUT THIS TRAINING

本次培训的目标、对象与收获

实事求是 · 可执行 · 数据可追溯

  • 统一认知:让每位同事都能讲清「中科DPU WS5000 是什么、为谁解决什么问题」。
  • 夯实基础:补齐 AI 算力中心(智算中心)基础知识,理解存储为何是隐形瓶颈。
  • 用数据说话:掌握第三方实测与单位经济关键数字,对外有理有据。
  • 会用会讲:拿到话术、FAQ 与各角色行动项,培训后即可上手。
销售 / BD
价值主张、TCO 账、目标客户与话术
售前 / 解决方案
架构原理、实测数据、异议处理
交付 / 运维
部署周期、改造流程、送测验证
市场 / 生态
对外口径、政策红利、合作叙事
AGENDA

今天的 11 个模块

模块你将带走
01公司与产品定位一句话价值主张
02AI 算力中心基础科普看懂智算中心与瓶颈
03WS5000 产品深度规格 · 矩阵 · 场景
04技术原理与架构存算分离四大技术
05第三方实测验证可复现的硬核数据
06客户价值与单位经济会算 TCO 与 ROI
07AI 算力中心业务四种商业模式
08生态与量产确定性来自哪里
09市场与路线图空间与节奏
10团队赋能与行动话术 · FAQ · 行动项
01
COMPANY & POSITIONING

公司与产品定位

从精密电子制造的传承者,到 AI 算力基础设施的建设者。

WHO WE ARE

深圳市中科航星科技有限公司 · 中科DPU

公司战略聚焦 AI 算力基础设施,以 存算分离 为核心技术路线,旗舰产品线为 中科DPU,核心型号 中科DPU WS5000(WS-HBMM5000) 全闪加速存储算力一体机。

约 10 年
持续研发积淀
技术/产品/制造风险已退坡
约 10 亿元
累计研发投入
公司自有历史投入口径
1,000 套/月
量产能力
立讯精密代工产线
2 套
现货样机
可即时送测
深圳 · 前海/河套 — AI 算力基础设施沃土
大模型时代的算力悖论:买了顶级 GPU,却在「等数据」
全国智算中心平均利用率不足 60%——算力被存储 I/O 拖累。模型加载、Checkpoint 读写、KV Cache 调度成为隐形瓶颈。
VALUE PROPOSITION

一句话讲清我们做什么

电梯话术(统一口径)
中科DPU WS5000 是面向 AI 训练/推理的高性能全闪加速存储一体机;通过 存算分离 + 高速数据通路,让 GPU 摆脱「等数据」,在不改框架的前提下把算力利用率提上去、把综合成本(TCO)降下来——经第三方实测,推理加载最高提速 85×、综合成本下降约 40%
让每一块 GPU 物尽其用存算分离国产可控开箱即用 48–72h已定型量产
02
AI COMPUTING CENTER 101

AI 算力中心基础科普

先懂智算中心,再懂我们在其中的位置。本模块为科普口径,建立共同语言。

WHAT IS IT

什么是 AI 算力中心(智算中心)

AI 算力中心(智算中心)是为人工智能训练与推理提供大规模并行算力的专用数据中心,由四大要素协同构成——缺一不可、相互制约。

  • 算力:GPU / NPU(如华为昇腾)集群,决定「能算多快」。
  • 网络:高速无损网络(IB / RoCE),决定「卡间能否高效协同」。
  • 存储:海量高带宽数据供给,决定「GPU 是否吃得饱」。
  • 供电与制冷:电力与散热(PUE),决定「能不能持续、划不划算」。
智算中心:算力 · 网络 · 存储 · 供电制冷
COMPUTE

算力层:训练 vs 推理,都离不开数据供给

训练(Training)
海量数据反复迭代,需要频繁读取数据集、保存 Checkpoint;I/O 一慢,GPU 就空转。
推理(Inference)
模型加载、多模型切换、长上下文 KV Cache;加载慢、切换慢直接拉低吞吐。
关键认知
GPU 再强,也要「喂得饱」。训练看 Checkpoint 读写,推理看 模型加载与 KV Cache——这两件事都发生在 存储与数据通路 上。
NETWORK

网络层:无损网络与东西向流量

  • 东西向流量:AI 集群里「卡与卡之间」的数据交换远大于「南北向」对外流量。
  • 无损网络:InfiniBand 或 RoCE(RDMA over Converged Ethernet),低时延、零丢包。
  • RDMA:远程直接内存访问,绕开 CPU 与多次拷贝,逼近本地访问速度。
  • 中科DPU 的承载:以 NVMe-oF over RDMA/RoCE 把存储接入这张高速网,让数据「直达」。
RDMA/RoCE 高速无损互联织构
存储层:AI 算力中心的「隐形瓶颈」
传统 NFS/集中式存储带宽有限,GPU 频繁「等数据」。存储层级(显存→内存→本地盘→网络存储)层层下探,越往外越慢——而大模型恰恰要频繁穿越这些层级。
POWER & PUE

能耗与 PUE:算力中心的「水电账」

PUE(电源使用效率)= 数据中心总能耗 / IT 设备能耗,越接近 1 越高效。电力与制冷是算力中心的主要持续成本之一。

1.50
传统 PUE
对照口径
1.25
优化 PUE
液冷就绪
-56%
等效年能耗
提效后口径
为什么和存储有关
存储去控制器、全闪低功耗,叠加 GPU 有效利用率提升,相同产出下所需卡数与电费下降——省的是真金白银的电费与机柜。
THE GAP

核心痛点:算力很贵,却没被用满

<60%
全国智算中心平均利用率
存在巨大提效空间
45%
改造前有效 GPU 利用率
I/O 受限场景
85%
改造后可达利用率
存算分离加速后
2-3×
GPU 利用率提升
高频切换/长上下文
本模块小结
AI 算力中心的天花板,往往不在 GPU 数量,而在 数据供给(存储与网络)。这正是 中科DPU WS5000 切入的位置。
03
THE PRODUCT

中科DPU WS5000 产品深度

把存储从「配角」升级为「算力放大器」。

OVERVIEW

中科DPU WS5000(WS-HBMM5000)

面向 AI 训练/推理的 高性能全闪加速存储算力一体机。通过存算分离架构与端到端高速数据通路,使 GPU 集群摆脱「等数据」瓶颈,在 不改变上层框架 的前提下显著提升算力有效利用率、大幅降低数据中心总拥有成本。

全闪 EBOFNVMe-oF / RDMAGPUDirectKV Cache 加速国产可控开箱即用
中科DPU WS5000 全闪加速存储一体机
SPECS

核心规格:一眼看懂硬实力

300 GB/s
聚合带宽
线速级数据通路
5000 万
随机 IOPS
高并发小文件友好
20 μs
访问时延
微秒级响应
90%+
GPU 适配率
主流加速卡广覆盖
48-72 小时
快速部署
开箱即用,最快当天上线
-40%
综合成本
对标主流方案三年 TCO
-60%
扩容成本
按需弹性扩展
2-3×
GPU 利用率提升
高频切换/长上下文
PORTFOLIO

产品矩阵:四种交付形态,覆盖不同客户

产品 / 服务形态面向客户核心价值
中科DPU WS5000 一体机硬件交付新建 AI 集群高带宽全闪存储,开箱即用
中科DPU 存储软件栈软件订阅已有硬件客户存算分离能力,持续升级
存量集群改造方案 + 服务已有数据中心不停机提速,盘活存量 GPU
加速存储算力服务算力/容量订阅中小团队 / 云上按需取用,降低门槛
记忆口诀
卖一体机、卖软件、改存量、租算力——同一套存算分离能力,四种变现。
USE CASES

什么时候推 WS5000?

大模型训练集群
加速模型加载与 Checkpoint 读写,缩短训练迭代周期。
大模型推理服务
长上下文 / 多模型高频切换,显著提升 GPU 有效利用率。
智算中心 / 国产底座
存算分离 + 昇腾适配,支撑自主可控算力基础设施。
存量数据中心改造
不换 GPU、不停机提速,盘活存量算力资产。
04
TECHNOLOGY

技术原理与架构

存算分离:把存储解耦成可独立扩展的全闪池,用高速无损网与算力池互联。

DISAGGREGATION

存算分离架构:算力池 ⟷ 高速网 ⟷ 全闪池

  • 解耦:把存储介质从计算节点中拆出,汇聚为独立的全闪存储池。
  • 互联:通过高速无损网络与 GPU 算力池相连,数据「直达」。
  • 弹性:算力与容量 独立扩展,资源池化、高效共享。
  • 无感:上层训练/推理框架无需改造,平滑接入。
存算分离:计算节点 ↔ NVMe-oF ↔ EBOF 全闪池
FOUR PILLARS

四大关键技术(对外要能讲清)

01NVMe-oF over RDMA/RoCE
以远程直接内存访问承载 NVMe 协议,绕开冗余拷贝,逼近本地盘性能。
02GPUDirect 直通
数据在存储与 GPU 显存间直达,缩短数据路径、降低 CPU 与时延开销。
03全闪 EBOF 架构
去控制器高密度闪存池,带宽与 IOPS 随容量近线性扩展,功耗更低。
04KV Cache 加速调度
面向长上下文/高频切换推理,卸载与复用 KV Cache,显著提升 GPU 有效利用率。
WHY IT MATTERS

为什么 KV Cache 是推理降本关键

推理时,长上下文与多模型切换会反复重建 KV Cache,吃显存、占时间。把 KV Cache 卸载/复用到高速存储,可在不堆 GPU 的情况下显著降本。

实测口径
行业与内部测试显示,KV Cache 卸载在在线场景最高可降本约 73.7%;对长上下文、Agent、多租户推理尤其明显。
DOMESTIC

国产可控适配:契合自主可控大势

  • 昇腾深度适配:面向华为昇腾等国产算力底座深度优化。
  • 广覆盖:主流加速卡适配率 90%+
  • 在测拓展:AMD、超聚变平台适配测试推进中(以最终报告为准)。
  • 信创友好:满足政企/智算中心自主可控诉求。
面向国产算力底座的存算分离适配
05
INDEPENDENT VALIDATION

第三方实测验证

北京信息科技大学 · 华为昇腾 Atlas 910B 平台 · 7 项指标全面领先。

SETUP

可复现的第三方实测

  • 测评方:北京信息科技大学(国家级院校,独立第三方)。
  • 平台:华为昇腾 Atlas 910B。
  • 对照基线:NFS 网络存储(NFS over TCP,10GbE)。
  • 中科DPU 链路:NVMe-oF over RDMA/RoCE(2×200GbE,线速 50GB/s)。
  • 覆盖:推理加载/服务、训练读写、Token 效率,共 7 项关键指标。
北京信息科技大学 · 昇腾 Atlas 910B 实测
INFERENCE

大模型推理:加载与服务提速

模型中科DPU 加载NFS 加载加载提速耗时降幅服务整体提速
DeepSeek-32B6.62 s563.85 s85.2×98.83%6.17×
DeepSeek-70B35.38 s1284.66 s36.3×97.25%9.33×
怎么讲
70B 大模型加载从 1285 秒 降到 35 秒——上线/切换从「分钟级」进入「秒级」。
TRAINING

训练:权重与 Checkpoint 读写

测试项中科DPUNFS 基线提速倍数耗时降幅
模型加载12.72 s140.23 s11.02×90.93%
模型保存31.16 s165.87 s5.32×81.21%
Checkpoint 加载10.55 s131.37 s12.45×91.97%
Checkpoint 保存81.94 s451.14 s5.51×81.84%
怎么讲
训练读写提速 5–12×:Checkpoint 越频繁、模型越大,省下的 GPU 空转时间越多。
THROUGHPUT

推理 Token 产出效率(= GPU 有效利用率)

模型切换频率中科DPU 利用率NFS 利用率相对提升
10 次/日99.8%80.4%+24.1%
20 次/日99.5%60.8%+63.6%
40 次/日99.1%21.7%+356.9%
关键结论
切换越频繁,差距越大:每天切换 40 次时,有效 Token 产出相对提升 +357%——多租户/多模型推理场景价值最大。
RESULTS

一页记住实测结论

85×
推理加载最高提速
DeepSeek-32B
9.33×
推理服务最高提速
DeepSeek-70B
+357%
Token 效率最高提升
高频切换场景
90.9%
7 项指标中位降幅
耗时越低越好
一句话背书
在 北京信息科技大学 的独立实测中,中科DPU WS5000 全面领先 NFS 基线——可复现、可验证,是对外最硬的第三方证据。
06
CUSTOMER VALUE

客户价值与单位经济

为客户创造可量化的价值:更低 TCO、更高 GPU 投资回报。

TCO

三年总拥有成本(TCO)对标

三年总拥有成本(百万美元,越低越好)
$145M
中科DPU
全闪加速方案
$154M
DDN
主流高端
$328M
WEKA
主流高端
$743M
VAST
主流高端
怎么算这笔账
对标主流高端方案,中科DPU 方案三年 TCO 约 145 百万美元,为四方案最低;相对代表性高端基线(约 241 百万美元)综合成本优势约 40%(约省 96 百万美元)。
ROI

提升 GPU 利用率 = 放大算力投资回报

45% → 85%
有效 GPU 利用率
存算分离加速后
89%
等效释放算力
相当于少买这么多卡
-56%
等效年能耗
电费与制冷下降
2.5×
等效算力放大
中性口径
销售视角
客户最贵的是 GPU。我们不卖更多 GPU,而是让客户 已有/将买的 GPU 更值钱——这是最容易被决策层听懂的价值。
UNIT ECONOMICS

单套系统经济性(测算口径)

收入构成(单套/年化口径)金额说明
硬件(一体机)280 万元一次性
软件订阅(CPFS+加速+KV Cache)50 万元/年经常性
运维服务34 万元/年经常性
算力服务(训力券拉动)30 万元/年经常性
综合收入 / 综合毛利率约 394 万元 · 约 49%硬件+软件+运维+算力
口径说明
上表为 模型测算口径(详见配套《商业计划书》),用于内部理解商业逻辑,对外报价以正式方案为准。
07
COMPUTE CENTER BUSINESS

AI 算力中心业务

不止卖盒子:从一体机,到算力服务与智算中心共建。

BUSINESS MODELS

四种商业模式,覆盖建设全周期

一体机售卖
新建 AI 集群直接采购 WS5000,硬件交付。
软件订阅
已有硬件客户订阅存算分离软件栈,经常性收入。
存量改造分成
不停机改造存量集群,按 Token 增量产出分成(轻资产)。
算力服务
以训力券拉动,按需提供加速存储算力,降低客户门槛。
智算中心共建:从供应商到合伙人
依托深圳前海/河套区位与政策,参与 智算中心共建——把 WS5000 作为存储算力底座,与算力运营方共享长期算力服务收益。
RETROFIT

存量改造:轻资产、可复制

  • 不停机:在役集群无需更换 GPU,加速套件接入即提速。
  • 提产出:改造后 Token 有效产出提升约 30%(保守口径)。
  • 分成制:在增量产出价值中分成约 15%,与客户利益绑定。
  • 可寻址:全国智算中心利用率不足 60%,存量提效空间巨大。
盘活存量算力:轻资产分成模式
POLICY

深圳/前海政策红利(非稀释性资金)

政策工具支持力度封顶
训力券(初创)最高 60%1000 万元/项
模型券算力/数据/评测补贴最高 1 亿元
前海智算中心上年实际投资额 5%2000 万元/平台
瞪羚 / 已获投企业已获投资额 15%5000 万元
怎么用
训力券直接降低客户用算力的成本,是 算力服务/改造 落地的强力抓手——销售要会主动提。
SEGMENTS

四段市场:分层推进、各有打法

市场段打法可寻址逻辑
国内新建一体机 + 软件AI 存储新建 SAM(存算分离层)
国内存量改造改造 + Token 分成在役算力 × 提效空间(利用率<60%)
海外新建整机出海(认证溢价)海外占全球约 80%,晚进入更保守
海外存量改造本地集成商 + 分成地缘约束下逐步触达
优先级
先以 国内新建 + 国内改造 验证规模化复制,再向海外延伸。
08
ECOSYSTEM & SUPPLY

生态与量产

确定性来自哪里:已验证、可量产、有生态。

CERTAINTY

从概念到成熟:四重确定性

已验证
技术确定
北京信息科技大学 第三方实测
已定型
产品确定
WS5000 定型量产
1,000 套/月
制造确定
立讯精密代工
在测
生态确定
AMD/超聚变推进中
  • 量产制造:与 立讯精密 达成预备量产协议,下单一个月内可交付约 1,000 套。
  • 即时送测:现有 2 套 样机现货,可随时安排客户 PoC,缩短验证周期。
  • 第三方背书:北京信息科技大学昇腾平台实测,国家级院校信誉。
  • 生态在测:AMD、超聚变平台适配推进中——以最终报告为准,不夸大、如实标注。
PARTNERS

生态与适配版图

华为昇腾国产 GPU 90%+AMD(在测)超聚变(在测)立讯精密代工北京信息科技大学
对外口径纪律
已落地推进中 必须分清楚:实测/量产是已落地;AMD/超聚变是推进中(在测)。实事求是是我们最强的信任资产。
已定型量产 · 立讯精密代工
09
MARKET & ROADMAP

市场与路线图

空间足够大,节奏足够稳。

MARKET

AI 存储:高速增长的核心赛道

$50B
AI 存储市场 2026
全球口径
$133B
AI 存储市场 2030
全球口径
27.5%
年复合增速
2025–2030
140万亿
中国日均 Token
需求侧锚点
TRAJECTORY

营收路线图(模型测算口径)

怎么看
在产品已定型量产、第三方验证完成、量产合作落地前提下,2026–2030 营收测算由 0.6 亿 增至 37.0 亿(累计约 69.1 亿);实际经营以最终披露为准。
MILESTONES

发展节奏:五年五个台阶

2026
M1 产品与基地
2027
M2 商业验证
2028
M3 规模盈利
2029
M4 全国×出海
2030
M5 全球与退出窗口
年度里程碑标志
2026M1 产品与基地EBOF 全闪一体机量产版发布;落地深圳前海/河套研发与中试基地;首批 15 套交付。
2027M2 商业验证签约 ≥10 家标杆客户(智算中心/大模型厂商);软件订阅 ARR 转入规模化;装机累计 75 套。
2028M3 规模盈利EBITDA 转正;国产 GPU 适配覆盖 90%+;KV Cache 推理加速套件商用;装机累计 255 套。
2029M4 全国×出海全国算力枢纽节点覆盖;启动东南亚/中东数据主权市场;营收突破 14 亿元。
2030M5 全球与退出窗口营收 30 亿+、净利率 20%+;进入科创板/港股或战略并购退出窗口。
10
ENABLEMENT

团队赋能与行动

学完能用:目标客户、话术、FAQ 与各角色行动项。

TARGETING

卖给谁:目标客户画像

  • 智算中心 / 算力运营方:新建或扩容,关心利用率与 TCO。
  • 大模型 / AI 应用团队:训练慢、推理贵、上线/切换慢。
  • 政企 / 信创客户:要自主可控、要昇腾适配。
  • 已有数据中心:GPU 利用率低、想盘活存量。
切入话术
「您的 GPU 用满了吗?」——从利用率切入,而非从存储参数切入。
价值锚点
让已有 GPU 更值钱:提利用率、降 TCO、不改框架。
FAQ

常见异议处理(必背)

Q「不够就多买 GPU 不行吗?」
GPU 利用率不足 60%,瓶颈在数据供给。先把利用率提上去,等于少买卡、省电费。
Q「和 DDN/WEKA/华为有何不同?」
存算分离 + 国产可控 + 三年 TCO 约 -40%;并有院校第三方实测可复现。
Q「真能国产适配吗?」
昇腾深度适配、主流卡 90%+;AMD/超聚变在测(如实标注)。
Q「能不停机改造吗?」
可以。存量集群不换 GPU、不停机接入加速套件,按 Token 增量分成。
PoC

送测演示流程:把「2 套现货」用起来

1
需求确认
2
方案匹配
3
现货送测/PoC
4
实测对比
5
签约/改造
我们的优势
现有 2 套样机现货 可即时送测,用客户自己的数据跑出加载/吞吐对比——「让数据说话」是最高效的成交方式。
ACTION

各角色培训后的行动项

销售 / BD
整理目标客户清单;用利用率/TCO 话术开场;主动提训力券。
售前 / 解决方案
背熟实测三张表与四大技术;准备 PoC 测试脚本。
交付 / 运维
梳理送测与改造 SOP;保障 48–72h 部署体验。
市场 / 生态
统一对外口径(已落地/推进中);放大政策与第三方背书。
CHEAT SHEET

关键数据速记卡(带走这一页)

300 GB/s
带宽
5000 万
IOPS
20 μs
时延
90%+
GPU 适配
85×
推理加载提速
实测
90.9%
7 项中位降幅
实测
-40%
三年 TCO
对标主流
1,000 套/月
量产能力
立讯精密
一句话收尾
中科DPU WS5000:已验证、可量产、国产可控的全闪加速存储——让每一块 GPU 物尽其用。
CONTACT

联系方式与配套资源

项目内容
公司主体深圳市中科航星科技有限公司
英文名称Shenzhen Zhongke Hangxing Technology Co., Ltd.
注册地址广东省深圳市南山区方大城 T2 栋 509 室
联系人陈垣熹(首席执行官)
联系电话+86 13823728880
电子邮箱13823728880@139.com
产品线中科DPU WS5000 全闪加速存储 · AI 算力基础设施
配套材料《公司简介》《商业计划书》《第三方测试报告》
合作洽询样机送测 / 联合验证 / 量产交付 / 智算中心共建
THANK YOU

让每一块 GPU 物尽其用

中科DPU WS5000 · 全闪加速存储算力一体机 · 深圳市中科航星科技有限公司

Q & A欢迎提问
送测2 套现货可即时验证
共建智算中心合作洽询
中科DPU
← → 翻页 · 点击两侧 · 按 O 总览

中科DPU WS5000 产品培训 · 总览