AI Chip Architecture · Deep Research

AI 芯片架构

后摩尔时代的六大计算范式

从冯·诺依曼瓶颈到存算一体
CIM → 光子计算 → 热力学计算 → 国产突围

SkyCetus Research · 五行飞轮→ 五行飞轮认知分析
分析师：SkyCetus Research · 2026.05
认知引擎：青龙(产业研究) → 朱雀(方案执行) → 谛听(校验) → 白虎(风险对冲) → 玄武(认知收敛)

核心观点关键指标六大范式全维度对比四大情景国产突围产业链图谱卡脖子清单风险矩阵终极演进 TEP三路径第一性原理

计算范式

150K

CIM tok/s
(衔尾蛇 13B)

90%

光子计算降耗
(Lumai Iris)

~$300

HCE单芯成本

181x

CIM能效提升
(ISSCC 2026)

0.48

残差率

核心观点

玄武 · 认知收敛

内存墙是AI芯片的根本瓶颈，不是算力。当前AI推理中，90%以上的时间和能耗消耗在数据搬运而非计算本身。冯·诺依曼架构的计算-存储分离是根因。任何不解决内存墙的方案都是治标不治本。ISSCC 2026上清华/华为/字节联合发布的28nm CIM芯片已验证：QPS提升66倍，QPS/W提升181倍。
存内计算(CIM)是最佳路径，光子计算是终极方向。CIM在存储器内完成计算，彻底消除数据搬运。中科院"衔尾蛇"芯片跑Llama 13B达150K tok/s。2026年4月Lumai Iris成为全球首个公开验证的光计算大规模AI落地案例，百亿参数LLM实时推理，能耗降低90%。两者殊途同归：消除数据搬运的物理距离。
国产AI芯片正从"可用"走向"主力"。DeepSeek V4宣布转向昇腾910B进行训练，百度订购1600片昇腾910B（4.5亿元），科思科技发布全国产全加固AI模组（64GB显存、军工级）。海光DCU兼容ROCm生态，已成国产第二极。国产化率正从边缘替代走向核心训练。
硬连线计算(HCE)是陷阱。Taalas HC1将模型烧入硅片，成本~$300、功耗~2W极具吸引力。但模型迭代以月计，把模型固化到硅片上是用硬件思维解决软件问题。CIM保持硬件灵活性的同时获得接近ASIC的能效比，是更优解。
热力学计算最具范式突破性。用物理过程本身做计算，能效比传统芯片高1000x理论上限。尚处早期阶段，但映射TEP残差理论的C路径（Explore），一旦突破将重定义"计算"的物理边界。

六大 AI 计算范式

青龙 · 产业研究

最佳路径

① 存内计算 CIM

Compute-in-Memory

在存储器内部直接完成计算，数据不动、计算就位。彻底消除冯·诺依曼架构的内存墙瓶颈。

里程碑：

中科院"衔尾蛇"芯片：Llama 13B @ 150K tok/s
ISSCC 2026：清华/华为/字节 28nm混合CIM芯片，QPS提升66x，QPS/W提升181x
微纳核芯：全球首创3D-CIM™技术，破解"高性能+低功耗+低成本"不可能三角
安克创新：首款神经网络存算一体AI音频芯片 Thus

可更新 ✓ 能效比 ↑↑↑ 量产就绪 28nm~成熟工艺

性价比之选

② 硬连线计算 HCE

Hard-Coded Execution

将神经网络权重直接烧入硅片的物理结构中，通过固化电路实现极致推理效率。

代表：Taalas HC1 ASIC，将Llama模型烧入硅片。成本约$300，功耗仅~2W。

致命缺陷：模型固化、不可更新。在模型迭代以月计的时代，一次性硅片 = 一次性产品。适合特定场景（嵌入式、IoT）但不是通用方向。

不可更新 ✗ ~$300 ~2W 极致推理

终极方向

③ 光子计算

Photonic Computing

以光子替代电子完成矩阵运算，利用光的并行性和近零延迟实现算力跃升。

里程碑（2026.04）：Lumai Iris成为全球首个公开验证的光计算大规模AI落地案例 — 百亿参数LLM实时推理，能耗降低最高90%。已向超算厂商、企业、科研机构开放评估。

互连：Lightmatter Passage光互连，延迟趋近零。Google TPU Ironwood用OCS（光路开关）实现1.77PB HBM内存池化。

能耗-90% 近零延迟 10B LLM已验证制造成本高

范式突破

④ 热力学计算

Thermodynamic Computing

用物理过程本身做计算 — 利用热力学涨落、玻尔兹曼分布等自然过程直接求解概率推理问题。

不是"用芯片模拟物理"，而是"让物理本身就是计算"。理论能效比传统芯片高1000x。

当前状态：早期研究阶段。Extropic AI等初创公司正在探索。原理已验证，但距工程化至少5-10年。

能效比 1000x理论概率计算原生早期阶段

国产主力

⑤ 华为昇腾 Ascend

Ascend 910B / 达芬奇架构

国产AI芯片第一极。7nm EUV工艺，32颗达芬奇核心，FP16算力256 TFLOPS，INT8算力512 TOPS，功耗310W。

2026年关键进展：

DeepSeek V4宣布转向昇腾910B训练 — 国内大模型首次完全采用国产算力
百度订购1600片（4.5亿元，200台服务器）
科思科技：全国产全加固AI模组，64GB显存，军工级（-40°C~+70°C）
Qwen3.6、DeepSeek-OCR等主流模型已完成昇腾适配

256 TFLOPS FP16 生态完整综合8.0/10 落后NVIDIA约1代

国产第二极

⑥ 海光 DCU

Deep Computing Unit / CDNA架构

基于AMD CDNA架构的国产AI加速卡。32GB HBM2显存，兼容ROCm生态，CUDA生态可迁移。

海光DCU的核心优势在于生态兼容性 — 大量CUDA代码可低成本迁移到ROCm，降低国产替代的迁移成本。

当前主流配置：昇腾910 + 海光DCU组合，已成为国产AI计算的标准方案。

32GB HBM2 ROCm兼容 CUDA可迁移综合7.25/10

全维度对比矩阵

朱雀 · 任务执行

维度	CIM 存内计算	HCE 硬连线	光子计算	热力学计算	昇腾 910B	海光 DCU
核心原理	存储器内计算	权重烧入硅片	光子矩阵运算	物理过程即计算	达芬奇核心	CDNA架构
能效比	极高（181x）	极高	极高（-90%能耗）	理论1000x	中等	中等
可更新性	✓ 可更新	✗ 固化	✓ 可更新	✓ 可更新	✓ 通用	✓ 通用
量产就绪	初期量产	已量产	首个商用案例	实验室	大规模量产	大规模量产
工艺节点	28nm~成熟工艺	成熟工艺	光学+半导体	N/A	7nm EUV	7nm
适用场景	推理+推荐系统	嵌入式/IoT	大模型推理	概率推理	训练+推理	训练+推理
成本	低（成熟工艺）	极低（~$300）	高	δ֪	高	中高
TEP路径	A Exploit	A Exploit	B Balanced	C Explore	A Exploit	A Exploit
残差率	0.25	0.15	0.55	0.90	0.30	0.35
天鲸评级	S级	B级	S级	A级（潜力）	A级	B+级

CIM > HCE — 可更新性是关键。
在模型迭代以月计的时代，把模型烧入硅片是短视的。
CIM保持硬件灵活性的同时获得接近ASIC的能效比。

四大情景分析

白虎 · 风险对冲

BULL · 乐观情景（概率 20%）

CIM + 光子计算在2027年前实现大规模量产。3D-CIM芯片性能超过GPU 10x以上，光子计算服务器取代部分数据中心GPU集群。NVIDIA市值被重估。国产CIM芯片借成熟工艺优势弯道超车，中国在AI芯片领域从追赶变为引领。2030年CIM市场规模达500亿+。

BASE · 基准情景（概率 50%）

CIM在推荐系统、边缘推理等特定场景率先落地，但通用训练仍以GPU为主。光子计算在2028年进入商用部署。昇腾910系列成为国内大模型训练标配，海光DCU覆盖中小型推理场景。NVIDIA保持领先但市场份额缓慢下降。2030年非GPU计算占AI芯片市场15-20%。CIM成为GPU的重要补充。

BEAR · 悲观情景（概率 20%）

CIM精度问题始终未解决（模拟计算的固有噪声），光子计算制造良率停滞。NVIDIA通过GB300/Rubin架构持续拉开差距，新架构本身整合了近存计算特性。国产芯片受制于先进工艺封锁，昇腾910系列性能代差不缩反扩。HCE因模型固化问题成为细分市场利基产品。

WILD · 黑天鹅情景（概率 10%）

热力学计算意外突破 — 某团队实现室温下稳定的玻尔兹曼机硬件，能效比GPU高100x以上，直接适用于概率推理和扩散模型。或者 — 量子光子计算在特定AI任务上实现量子优势。又或者 — 中美脱钩加剧导致NVIDIA完全断供，中国被迫全面转向CIM+昇腾路线，反而催生出独立技术生态。

SkyCetus 检测信号

DeepSeek V4转向昇腾（国产算力首次承载旗舰训练）+ Lumai Iris光计算首次商用验证 + ISSCC 2026 CIM芯片181x能效提升 = 三条技术路线同时突破。系统判断：后摩尔时代的计算范式分叉点已到。2026-2028年是关键窗口 — 各路线将在这个周期内决出产业化胜负。

国产AI芯片突围

朱雀 · 任务执行

国产化进度

昇腾生态

75%

海光DCU生态

55%

CIM芯片量产

30%

EDA工具链

20%

先进制程（7nm以下）

15%

2026年关键事件

时间	事件	意义
2026.04.16	DeepSeek V4转向昇腾910B训练	国内首次旗舰模型完全采用国产算力
2026.04	百度订购1600片昇腾910B（4.5亿元）	国产AI芯片进入大规模采购阶段
2026.04.28	科思科技发布昇腾910B全国产全加固AI模组	国产AI芯片进入军工/特种领域
2026.04.22	安克创新展示首款CIM AI音频芯片 Thus	CIM从数据中心下沉到消费电子
2026.04.28	Lumai Iris光计算服务器百亿参数LLM实时推理	光计算从实验室走向商用
ISSCC 2026	清华/华为/字节 28nm CIM芯片	学术界CIM能效新纪录

天鲸视角：CIM是国产弯道超车的最佳路线

CIM芯片使用28nm等成熟工艺即可实现高性能，完全绕过先进制程封锁。中国拥有全球最大的成熟工艺产能（中芯国际、华虹等），加上清华/华为/字节等顶尖团队的研发投入，CIM有望成为中国在AI芯片领域从追赶转向引领的关键技术路线。

这不是"因为被封锁所以被迫选CIM"，而是"CIM本身就是更好的架构" — 恰好这个更好的架构不需要先进制程。

产业链图谱

青龙 · 产业研究

环节	全球龙头	国产替代	国产化率	瓶颈
GPU/加速卡	NVIDIA (H100/B200)	华为昇腾910B、海光DCU	30-40%	先进工艺、CUDA生态
CIMоƬ	初创为主	微纳核芯、清华团队	50%+	精度、编程模型
HBM内存	SK Hynix、三星	长鑫存储（追赶中）	~5%	TSV封装、良率
先进封装	TSMC CoWoS	长电科技、通富微电	20-30%	CoWoS产能
EDA工具	Synopsys、Cadence、Siemens	华大九天、概伦电子	~15%	全流程覆盖
IP核	ARM、Synopsys	芯原股份、芯来科技	25%	高端IP
光子器件	Lumai、Lightmatter	曦智科技	~10%	光电集成工艺

卡脖子清单

谛听 · 校验

🔴 先进制程（7nm以下）

ASML EUV光刻机完全受限。中芯国际N+2工艺（约7nm DUV）可用于昇腾910B，但5nm/3nm仍无法突破。短期无解，但CIM路线可绕过。

🔴 HBM高带宽内存

SK Hynix占全球HBM份额50%+，三星30%+。长鑫存储HBM3研发中但量产至少2027年。HBM是AI芯片的"血液"，断供风险高。

🟡 CUDA生态壁垒

NVIDIA CUDA拥有20年生态积累，数百万开发者。昇腾CANN和海光ROCm正在追赶，但生态迁移成本巨大。PyTorch/JAX的硬件抽象层正在降低迁移门槛。

🟡 CIM精度问题

模拟计算固有的噪声和非线性导致CIM芯片精度不如数字芯片。当前CIM主要适用于INT8/INT4低精度推理，FP16/FP32训练仍需GPU。混合精度方案是关键突破方向。

🟢 成熟工艺产能

28nm及以上成熟工艺中国已完全自主。中芯国际、华虹等产能充足。CIM芯片恰好使用成熟工艺，这是国产CIM路线的最大结构性优势。

🟢 AI框架适配

PyTorch、MindSpore等主流框架已支持昇腾和海光。Qwen3.6、DeepSeek V4等旗舰模型完成国产适配。软件生态正在快速追赶。

风险矩阵

白虎 · 风险对冲

地缘封锁风险（HIGH）：美国持续收紧对华芯片出口管制。NVIDIA H20等"特供版"性能受限，未来可能进一步断供。先进制程和HBM内存是最脆弱的供应链环节。但CIM路线可部分对冲此风险。

NVIDIA护城河风险（HIGH）：NVIDIA GB300/Rubin架构正在整合近存计算、光互连等新技术。如果NVIDIA自身解决了内存墙问题，CIM/光子计算的颠覆窗口将缩小。时间是关键 — 2026-2028年是窗口期。

CIM精度瓶颈（MED）：模拟计算的固有噪声限制了CIM芯片在高精度训练中的应用。如果大模型持续需要FP16/BF16精度训练，CIM将被限制在推理场景。数字CIM（SRAM-based）可部分解决但能效优势下降。

光子计算成本（MED）：光子芯片制造涉及非标准半导体工艺，良率和成本控制是商业化关键。Lumai Iris验证了可行性，但大规模部署的经济性尚未证明。

人才竞争（MED）：AI芯片设计需要同时具备半导体工艺、计算架构、AI算法的复合型人才。全球顶尖人才集中在NVIDIA/Google/AMD。国内高校和企业正在加大培养力度但仍有差距。

技术路线分散（LOW）：六大范式并行发展，资源分散。但从TEP角度，A/B/C三路径并行本身就是最优策略 — 不是所有鸡蛋放一个篮子。

终极计算范式演进

玄武 · 认知收敛

物理学约束

兰道尔极限（Landauer's Limit）：擦除1 bit信息的最小能耗 = kT ln2 ≈ 2.87 × 10⁻²¹ J（室温）。

当前NVIDIA H100每次运算能耗约10⁻¹² J — 距离兰道尔极限还有10⁹倍（十亿倍）改进空间。

这意味着：从物理学角度，计算效率至少还有9个数量级的提升空间。当前的GPU只是人类计算能力的婴儿期。

层级	技术	能效比	距兰道尔极限	TEP路径	残差率	时间尺度
当代	GPU (NVIDIA H100)	1x（基准）	10⁹x	A 已知最优	0.10	现在
近期	CIM 存内计算	10-100x	10⁷x	A Exploit	0.25	2-3年
近期	光子计算	10-50x	10⁷x	B Balanced	0.55	3-5年
中期	热力学计算	1000x理论	10⁶x	C Explore	0.90	5-10年
远期	可逆计算	∞（理论无耗散）	≈1x	C Explore	0.98	20年+

存内计算 · A路径终局

数据不动，计算就位。

CIM的终极形态是"每个存储单元都是计算单元"。3D-CIM将存储层和计算层垂直堆叠，从根本上消除数据搬运。

理论能效比GPU高10-100x，使用成熟工艺（28nm），中国有结构性优势。

局限：仍然是经典数字/模拟计算，受冯·诺依曼框架约束。

热力学计算 · C路径终局

让物理本身成为计算。

不是用硅片模拟神经网络，而是用热力学涨落、玻尔兹曼分布等自然过程直接求解概率推理。

这不是"更快的芯片"，而是"根本不同的计算范式" — 正如飞机不是更快的马车。

映射TEP残差理论：当理想模型（经典计算）无法进一步优化时，残差（物理计算）成为突破口。

TEP 三路径映射 · AI芯片演进

A · EXPLOIT

已知最优解

GPU · CIM · HCE · 昇腾/海光
残差 0.10 - 0.35

B · BALANCED

原理验证

光子计算 · 神经形态
残差 0.55 - 0.70

C · EXPLORE

范式突破

热力学计算 · 可逆计算 · 量子
残差 0.85 - 0.98

第一性原理

玄武 · 认知收敛

计算的本质是什么？

"计算"的物理本质是信息的可控变换。Shannon定义了信息，Turing定义了可计算性，Landauer证明了信息擦除需要能量。

当前所有计算范式都在同一个物理框架内：用有序能量驱动信息变换。区别只在于：

GPU：电子在晶体管中流动 → 逻辑门运算 → 数据在内存和计算单元间搬运（这是瓶颈）
CIM：电子/电荷在存储器中就地运算 → 消除搬运（优化瓶颈）
光子：光子在波导中干涉 → 矩阵乘法 → 速度极限是光速（更换载体）
热力学：物理系统自发演化到平衡态 → 概率分布就是计算结果（更换范式）

从GPU到CIM，是消除瓶颈（数据搬运）。
从CIM到光子，是更换信息载体（电子 → 光子）。
从光子到热力学，是更换计算范式（指令驱动 → 物理驱动）。
每一步都在更深的物理层面重新定义"计算"。

地面光伏的终局是钙钛矿叠层 — 同样，
经典计算的终局是CIM/光子，但物理计算才是人类算力的终极形态。
前者是10年尺度的工程问题，后者是50年尺度的物理学问题。
区别只在于：你在哪个物理层面定义"计算"。

SkyCetus Research · 五行飞轮认知分析
残差率：0.48 · 评级：S级

理想模型决定下限，人类残差决定上限。

材料星图 · CIMоƬ · 算力中心 · 光子计算 · 案例中心

免责声明：本报告由 SkyCetus Research 基于公开信息整理，仅供研究参考，不构成投资建议。数据来源包括ISSCC 2026论文、新浪财经、CSDN技术博客、企业官网等公开资料。市场预测基于特定假设，实际结果可能与预测存在重大差异。

想让飞轮分析你的问题？

五个AI智能体，三轮对抗迭代，一份经得起检验的结论。
无论是投资决策、战略规划还是行业研究——让五行飞轮帮你看清全局。

查看服务与定价 → 联系我们

开放版免费安装 · 专业版Engram持续记忆 · 企业版团队定制