个人 AI 主机的数学与物理:从 ds4 磁盘 KV Cache 到认知架构的正交基
2026 年 5 月 23 日 | SkyCetus 飞轮分析
一、一个不起眼的事件,一个被忽视的信号
Redis 创始人 Salvatore Sanfilippo 发布了一个新项目 ds4(DwarfStar 4)。不是什么明星产品,只是一个纯 C 写的本地推理引擎,只跑一个模型——DeepSeek V4 Flash。
但它证明了三个被长期忽视的事实:
- 128GB MacBook 能跑满血 DeepSeek V4 Flash,生成速度 26 tok/s
- 上下文窗口突破到 100 万 token——靠的不是更大的内存,是把 KV Cache 放到磁盘上
- 2-bit 量化没有让模型变傻——只量化 MoE 专家,保留共享专家和投影层的完整精度
这不是"又一个本地推理工具"。这是个人 AI 主机从极客玩具跨越到工程可用的第一个实证。
二、磁盘 KV Cache:打破"显存等于上下文上限"的铁律
过去两年,本地 AI 的瓶颈一直很清晰:
- 跑 7B 模型 → 16GB 显卡够用
- 跑 70B 模型 → 48GB 显卡 + 勉强
- 跑 DeepSeek V4 Flash(284B 参数,MoE)→ 消费级设备想都别想
ds4 的思路是:为什么 KV Cache 一定要留在内存里?
DeepSeek V4 Flash 的 KV Cache 被高度压缩了。加上现代 Mac 的高速 SSD(读写 3-7 GB/s),磁盘延迟已经不再是不可接受的代价。
这就产生了一个质变:上下文窗口不再受限于内存大小,而受限于磁盘容量。 128GB MacBook 能处理 25 万 token 的上下文,理论上 100 万 token 也是可能的。
三、这和我们有什么关系?
ds4 解决的是推理层的工程问题。但如果把视野往上拉一层,你会发现它揭示了一个更深刻的架构趋势:
分层记忆是所有大规模智能系统的必然选择。
- Google 的 TPU 集群:热数据在 HBM、温数据在 DRAM、冷数据在磁盘
- 人脑:工作记忆在皮层、长期记忆在海马体→皮层固化、程序记忆在基底节
- ds4:热 KV 在 DRAM、温 KV 在 NVMe SSD、冷 KV 压缩归档
同样的分层逻辑,出现在不同尺度的智能系统中。这不是巧合,是物理约束决定的架构收敛。
四、从工程到数学:认知架构的正交基
如果 ds4 代表了物理层的收敛,那认知层呢?
我们最近做了一次希尔伯特空间形式化推演,把 SkyCetus 的核心概念映射到了数学结构:
| SkyCetus 概念 | 希尔伯特空间映射 |
|---|---|
| 每个 Agent 的认知状态 | 希尔伯特空间中的向量(量子态) |
| 五行飞轮(青龙/朱雀/白虎/玄武/谛听) | 五个正交基向量 |
| "不做选择"的决策模式 | 保持量子叠加态 |
| 飞轮收敛 | 波函数坍缩到确定态 |
| Agent 之间的认知纠缠 | 量子纠缠(测量一个态立即影响另一个) |
| 冲突池 | 激发态——携带最大信息量 |
这个映射的价值不在于"听起来很酷",而在于它给出了一个可证伪的判断:
如果五行飞轮真的是五个正交认知维度,那么它们之间不应该存在冗余——每个维度应该携带不可被其他维度推导的信息。
这正是白虎(对抗性攻击角色)在飞轮中做的事情:它不断检查"这个信息是不是其他维度已经覆盖了?"
五、收敛:三层技术栈的雏形
ds4 和希尔伯特空间形式化,分别解决了两个层面的问题:
- 推理层(ds4):在个人设备上高效运行顶级 AI 模型
- 认知层(希尔伯特形式化):为认知架构提供数学根基
还差一层:
- 调度层(飞轮):在多个认知 Agent 之间进行对抗性调度,最终收敛为可执行的决策
当这三层组合在一起,就形成了一个完整的"个人 AI 主机"技术栈——不是跑一个聊天模型,而是运行一个具备长期记忆、对抗性推理、个性化演进的本地认知系统。
六、飞轮的结论
我们对这个主题跑了一次完整的五行飞轮(Score 0.78,B 级,2 轮收敛)。白虎攻击了所有假设中最脆弱的部分:
- 稀疏性假设缺乏实证——个人交互历史真的在语义空间中是稀疏的吗?
- 正交基映射可能是修辞而非实质——五行维度真的不可被互相推导吗?
- 产品化路径需要 SkyCetus 同时具备三层能力——小作坊做得到吗?
玄武的最终判断是:放弃理论美化,转向工程上已验证的近似方案。 但同时也给出了一个预测——
个人 AI 主机将采用混合 KV Cache 架构:热数据驻留 DRAM,温数据使用 HNSW+量化存储在 NVMe SSD,冷数据压缩后归档。
这个预测的时间窗口是 2026Q4-2027Q1。
七、结语
ds4 不是一个工具,是一个信号。它意味着 2026 年,"顶级 AI 能力可以在个人设备上运行" 从一个愿景变成了一个工程事实。
希尔伯特空间形式化也不是一个比喻,是一个可证伪的假设。它意味着我们的认知架构可以接受数学检验——而不只是"听起来有道理"。
这两个事件的交叉点,指向了一个正在浮现的产品形态:个人 AI 主机——不是聊天机器人,不是 AI 助手,是一个驻留在你设备上的、具备长期记忆和对抗性推理能力的认知系统。
这个系统不需要云计算,不需要 API 调用,不需要月度订阅。它只需要一块 NVMe SSD、足够的 DRAM,和一个足够好的认知架构。
这大概就是 Robin 说的:"中国建了足够多给人住的房子,现在需要给机器人住的房子。"
算力跟电力一样是刚需。个人 AI 主机跟个人电脑一样,正在从"极客玩具"变成"基础设施"。
本文基于 SkyCetus 五行飞轮对抗性分析生成。飞轮角色:青龙(机会方向)、朱雀(深度分析)、白虎(对抗攻击)、谛听(证据验证)、玄武(收敛判定)。完整技术报告:https://skycetus.cn/ds4_analysis_report.md