AI 芯片架构
后摩尔时代的六大计算范式
从冯·诺依曼瓶颈到存算一体
CIM → 光子计算 → 热力学计算 → 国产突围
(衔尾蛇 13B)
(Lumai Iris)
(ISSCC 2026)
核心观点
玄武 · 认知收敛- 内存墙是AI芯片的根本瓶颈,不是算力。当前AI推理中,90%以上的时间和能耗消耗在数据搬运而非计算本身。冯·诺依曼架构的计算-存储分离是根因。任何不解决内存墙的方案都是治标不治本。ISSCC 2026上清华/华为/字节联合发布的28nm CIM芯片已验证:QPS提升66倍,QPS/W提升181倍。
- 存内计算(CIM)是最佳路径,光子计算是终极方向。CIM在存储器内完成计算,彻底消除数据搬运。中科院"衔尾蛇"芯片跑Llama 13B达150K tok/s。2026年4月Lumai Iris成为全球首个公开验证的光计算大规模AI落地案例,百亿参数LLM实时推理,能耗降低90%。两者殊途同归:消除数据搬运的物理距离。
- 国产AI芯片正从"可用"走向"主力"。DeepSeek V4宣布转向昇腾910B进行训练,百度订购1600片昇腾910B(4.5亿元),科思科技发布全国产全加固AI模组(64GB显存、军工级)。海光DCU兼容ROCm生态,已成国产第二极。国产化率正从边缘替代走向核心训练。
- 硬连线计算(HCE)是陷阱。Taalas HC1将模型烧入硅片,成本~$300、功耗~2W极具吸引力。但模型迭代以月计,把模型固化到硅片上是用硬件思维解决软件问题。CIM保持硬件灵活性的同时获得接近ASIC的能效比,是更优解。
- 热力学计算最具范式突破性。用物理过程本身做计算,能效比传统芯片高1000x理论上限。尚处早期阶段,但映射TEP残差理论的C路径(Explore),一旦突破将重定义"计算"的物理边界。
六大 AI 计算范式
青龙 · 产业研究① 存内计算 CIM
在存储器内部直接完成计算,数据不动、计算就位。彻底消除冯·诺依曼架构的内存墙瓶颈。
里程碑:
- 中科院"衔尾蛇"芯片:Llama 13B @ 150K tok/s
- ISSCC 2026:清华/华为/字节 28nm混合CIM芯片,QPS提升66x,QPS/W提升181x
- 微纳核芯:全球首创3D-CIM™技术,破解"高性能+低功耗+低成本"不可能三角
- 安克创新:首款神经网络存算一体AI音频芯片 Thus
② 硬连线计算 HCE
将神经网络权重直接烧入硅片的物理结构中,通过固化电路实现极致推理效率。
代表:Taalas HC1 ASIC,将Llama模型烧入硅片。成本约$300,功耗仅~2W。
致命缺陷:模型固化、不可更新。在模型迭代以月计的时代,一次性硅片 = 一次性产品。适合特定场景(嵌入式、IoT)但不是通用方向。
③ 光子计算
以光子替代电子完成矩阵运算,利用光的并行性和近零延迟实现算力跃升。
里程碑(2026.04):Lumai Iris成为全球首个公开验证的光计算大规模AI落地案例 — 百亿参数LLM实时推理,能耗降低最高90%。已向超算厂商、企业、科研机构开放评估。
互连:Lightmatter Passage光互连,延迟趋近零。Google TPU Ironwood用OCS(光路开关)实现1.77PB HBM内存池化。
④ 热力学计算
用物理过程本身做计算 — 利用热力学涨落、玻尔兹曼分布等自然过程直接求解概率推理问题。
不是"用芯片模拟物理",而是"让物理本身就是计算"。理论能效比传统芯片高1000x。
当前状态:早期研究阶段。Extropic AI等初创公司正在探索。原理已验证,但距工程化至少5-10年。
⑤ 华为昇腾 Ascend
国产AI芯片第一极。7nm EUV工艺,32颗达芬奇核心,FP16算力256 TFLOPS,INT8算力512 TOPS,功耗310W。
2026年关键进展:
- DeepSeek V4宣布转向昇腾910B训练 — 国内大模型首次完全采用国产算力
- 百度订购1600片(4.5亿元,200台服务器)
- 科思科技:全国产全加固AI模组,64GB显存,军工级(-40°C~+70°C)
- Qwen3.6、DeepSeek-OCR等主流模型已完成昇腾适配
⑥ 海光 DCU
基于AMD CDNA架构的国产AI加速卡。32GB HBM2显存,兼容ROCm生态,CUDA生态可迁移。
海光DCU的核心优势在于生态兼容性 — 大量CUDA代码可低成本迁移到ROCm,降低国产替代的迁移成本。
当前主流配置:昇腾910 + 海光DCU组合,已成为国产AI计算的标准方案。
全维度对比矩阵
朱雀 · 任务执行| 维度 | CIM 存内计算 | HCE 硬连线 | 光子计算 | 热力学计算 | 昇腾 910B | 海光 DCU |
|---|---|---|---|---|---|---|
| 核心原理 | 存储器内计算 | 权重烧入硅片 | 光子矩阵运算 | 物理过程即计算 | 达芬奇核心 | CDNA架构 |
| 能效比 | 极高(181x) | 极高 | 极高(-90%能耗) | 理论1000x | 中等 | 中等 |
| 可更新性 | ✓ 可更新 | ✗ 固化 | ✓ 可更新 | ✓ 可更新 | ✓ 通用 | ✓ 通用 |
| 量产就绪 | 初期量产 | 已量产 | 首个商用案例 | 实验室 | 大规模量产 | 大规模量产 |
| 工艺节点 | 28nm~成熟工艺 | 成熟工艺 | 光学+半导体 | N/A | 7nm EUV | 7nm |
| 适用场景 | 推理+推荐系统 | 嵌入式/IoT | 大模型推理 | 概率推理 | 训练+推理 | 训练+推理 |
| 成本 | 低(成熟工艺) | 极低(~$300) | 高 | δ֪ | 高 | 中高 |
| TEP路径 | A Exploit | A Exploit | B Balanced | C Explore | A Exploit | A Exploit |
| 残差率 | 0.25 | 0.15 | 0.55 | 0.90 | 0.30 | 0.35 |
| 天鲸评级 | S级 | B级 | S级 | A级(潜力) | A级 | B+级 |
CIM > HCE — 可更新性是关键。
在模型迭代以月计的时代,把模型烧入硅片是短视的。
CIM保持硬件灵活性的同时获得接近ASIC的能效比。
四大情景分析
白虎 · 风险对冲SkyCetus 检测信号
DeepSeek V4转向昇腾(国产算力首次承载旗舰训练)+ Lumai Iris光计算首次商用验证 + ISSCC 2026 CIM芯片181x能效提升 = 三条技术路线同时突破。系统判断:后摩尔时代的计算范式分叉点已到。2026-2028年是关键窗口 — 各路线将在这个周期内决出产业化胜负。
国产AI芯片突围
朱雀 · 任务执行国产化进度
2026年关键事件
| 时间 | 事件 | 意义 |
|---|---|---|
| 2026.04.16 | DeepSeek V4转向昇腾910B训练 | 国内首次旗舰模型完全采用国产算力 |
| 2026.04 | 百度订购1600片昇腾910B(4.5亿元) | 国产AI芯片进入大规模采购阶段 |
| 2026.04.28 | 科思科技发布昇腾910B全国产全加固AI模组 | 国产AI芯片进入军工/特种领域 |
| 2026.04.22 | 安克创新展示首款CIM AI音频芯片 Thus | CIM从数据中心下沉到消费电子 |
| 2026.04.28 | Lumai Iris光计算服务器百亿参数LLM实时推理 | 光计算从实验室走向商用 |
| ISSCC 2026 | 清华/华为/字节 28nm CIM芯片 | 学术界CIM能效新纪录 |
天鲸视角:CIM是国产弯道超车的最佳路线
CIM芯片使用28nm等成熟工艺即可实现高性能,完全绕过先进制程封锁。中国拥有全球最大的成熟工艺产能(中芯国际、华虹等),加上清华/华为/字节等顶尖团队的研发投入,CIM有望成为中国在AI芯片领域从追赶转向引领的关键技术路线。
这不是"因为被封锁所以被迫选CIM",而是"CIM本身就是更好的架构" — 恰好这个更好的架构不需要先进制程。
产业链图谱
青龙 · 产业研究| 环节 | 全球龙头 | 国产替代 | 国产化率 | 瓶颈 |
|---|---|---|---|---|
| GPU/加速卡 | NVIDIA (H100/B200) | 华为昇腾910B、海光DCU | 30-40% | 先进工艺、CUDA生态 |
| CIMоƬ | 初创为主 | 微纳核芯、清华团队 | 50%+ | 精度、编程模型 |
| HBM内存 | SK Hynix、三星 | 长鑫存储(追赶中) | ~5% | TSV封装、良率 |
| 先进封装 | TSMC CoWoS | 长电科技、通富微电 | 20-30% | CoWoS产能 |
| EDA工具 | Synopsys、Cadence、Siemens | 华大九天、概伦电子 | ~15% | 全流程覆盖 |
| IP核 | ARM、Synopsys | 芯原股份、芯来科技 | 25% | 高端IP |
| 光子器件 | Lumai、Lightmatter | 曦智科技 | ~10% | 光电集成工艺 |
卡脖子清单
谛听 · 校验🔴 先进制程(7nm以下)
ASML EUV光刻机完全受限。中芯国际N+2工艺(约7nm DUV)可用于昇腾910B,但5nm/3nm仍无法突破。短期无解,但CIM路线可绕过。
🔴 HBM高带宽内存
SK Hynix占全球HBM份额50%+,三星30%+。长鑫存储HBM3研发中但量产至少2027年。HBM是AI芯片的"血液",断供风险高。
🟡 CUDA生态壁垒
NVIDIA CUDA拥有20年生态积累,数百万开发者。昇腾CANN和海光ROCm正在追赶,但生态迁移成本巨大。PyTorch/JAX的硬件抽象层正在降低迁移门槛。
🟡 CIM精度问题
模拟计算固有的噪声和非线性导致CIM芯片精度不如数字芯片。当前CIM主要适用于INT8/INT4低精度推理,FP16/FP32训练仍需GPU。混合精度方案是关键突破方向。
🟢 成熟工艺产能
28nm及以上成熟工艺中国已完全自主。中芯国际、华虹等产能充足。CIM芯片恰好使用成熟工艺,这是国产CIM路线的最大结构性优势。
🟢 AI框架适配
PyTorch、MindSpore等主流框架已支持昇腾和海光。Qwen3.6、DeepSeek V4等旗舰模型完成国产适配。软件生态正在快速追赶。
风险矩阵
白虎 · 风险对冲终极计算范式演进
玄武 · 认知收敛物理学约束
兰道尔极限(Landauer's Limit):擦除1 bit信息的最小能耗 = kT ln2 ≈ 2.87 × 10⁻²¹ J(室温)。
当前NVIDIA H100每次运算能耗约10⁻¹² J — 距离兰道尔极限还有10⁹倍(十亿倍)改进空间。
这意味着:从物理学角度,计算效率至少还有9个数量级的提升空间。当前的GPU只是人类计算能力的婴儿期。
| 层级 | 技术 | 能效比 | 距兰道尔极限 | TEP路径 | 残差率 | 时间尺度 |
|---|---|---|---|---|---|---|
| 当代 | GPU (NVIDIA H100) | 1x(基准) | 10⁹x | A 已知最优 | 0.10 | 现在 |
| 近期 | CIM 存内计算 | 10-100x | 10⁷x | A Exploit | 0.25 | 2-3年 |
| 近期 | 光子计算 | 10-50x | 10⁷x | B Balanced | 0.55 | 3-5年 |
| 中期 | 热力学计算 | 1000x理论 | 10⁶x | C Explore | 0.90 | 5-10年 |
| 远期 | 可逆计算 | ∞(理论无耗散) | ≈1x | C Explore | 0.98 | 20年+ |
存内计算 · A路径终局
数据不动,计算就位。
CIM的终极形态是"每个存储单元都是计算单元"。3D-CIM将存储层和计算层垂直堆叠,从根本上消除数据搬运。
理论能效比GPU高10-100x,使用成熟工艺(28nm),中国有结构性优势。
局限:仍然是经典数字/模拟计算,受冯·诺依曼框架约束。
热力学计算 · C路径终局
让物理本身成为计算。
不是用硅片模拟神经网络,而是用热力学涨落、玻尔兹曼分布等自然过程直接求解概率推理。
这不是"更快的芯片",而是"根本不同的计算范式" — 正如飞机不是更快的马车。
映射TEP残差理论:当理想模型(经典计算)无法进一步优化时,残差(物理计算)成为突破口。
TEP 三路径映射 · AI芯片演进
残差 0.10 - 0.35
残差 0.55 - 0.70
残差 0.85 - 0.98
第一性原理
玄武 · 认知收敛计算的本质是什么?
"计算"的物理本质是信息的可控变换。Shannon定义了信息,Turing定义了可计算性,Landauer证明了信息擦除需要能量。
当前所有计算范式都在同一个物理框架内:用有序能量驱动信息变换。区别只在于:
- GPU:电子在晶体管中流动 → 逻辑门运算 → 数据在内存和计算单元间搬运(这是瓶颈)
- CIM:电子/电荷在存储器中就地运算 → 消除搬运(优化瓶颈)
- 光子:光子在波导中干涉 → 矩阵乘法 → 速度极限是光速(更换载体)
- 热力学:物理系统自发演化到平衡态 → 概率分布就是计算结果(更换范式)
从GPU到CIM,是消除瓶颈(数据搬运)。
从CIM到光子,是更换信息载体(电子 → 光子)。
从光子到热力学,是更换计算范式(指令驱动 → 物理驱动)。
每一步都在更深的物理层面重新定义"计算"。
地面光伏的终局是钙钛矿叠层 — 同样,
经典计算的终局是CIM/光子,但物理计算才是人类算力的终极形态。
前者是10年尺度的工程问题,后者是50年尺度的物理学问题。
区别只在于:你在哪个物理层面定义"计算"。
免责声明:本报告由 SkyCetus Research 基于公开信息整理,仅供研究参考,不构成投资建议。数据来源包括ISSCC 2026论文、新浪财经、CSDN技术博客、企业官网等公开资料。市场预测基于特定假设,实际结果可能与预测存在重大差异。
想让飞轮分析你的问题?
五个AI智能体,三轮对抗迭代,一份经得起检验的结论。
无论是投资决策、战略规划还是行业研究——让五行飞轮帮你看清全局。
开放版免费安装 · 专业版Engram持续记忆 · 企业版团队定制