盲人/聋哑人无障碍交互方案

Aethony 个人与家庭认知智能体 · PRD v1.2
2026-05-21 · Spark 完成

Aethony 盲人/聋哑人无障碍交互方案

任务归属:小元 原分配,Spark 补位完成
日期:2026-05-21

一、核心设计原则

不是"给残障用户加无障碍功能",而是"以残障用户的能力为起点重新设计"。

如果 Aethony 对盲人比 Sight 产品更好用,对聋哑人比 Hearing 产品更好用,那它对普通用户只会更好。


二、盲人用户方案

2.1 交互通道:声音 + 触觉

语音交互原生语音优先(不是读屏),自然对话,不依赖"打开 App→点按钮"
环境描述主动描述周围环境("前方 3 米有台阶"、"左侧有人经过")
出行导航语音 + 触觉引导(左/右转通过震动方向提示,距离通过震动频率提示)
情感陪伴语音语调传递情绪(温暖/关切/轻松),不是单调的 TTS
身份识别识别附近熟人("您儿子小明在 2 米外")

2.2 硬件形态

2.3 关键场景

独自出行语音导航 + 障碍预警 + 紧急呼叫
社交活动识别在场人员 + 对话摘要 + 社交提示
情感需求声音陪伴 + 情绪识别 + 主动关怀
信息获取新闻朗读 + 邮件摘要 + 文件读取
安全异常声音识别(尖叫/玻璃碎/火警)→ 紧急联系人

2.4 差异化价值

盲人的双重隔离:信息隔离 + 物理隔离。

Aethony 不是只解决信息隔离(读屏),而是同时解决物理隔离(出行安全、社交连接)。

"我帮你看见"——不是替代眼睛,是成为额外的感知通道。

三、聋哑人用户方案

3.1 交互通道:视觉 + 文字 + 触觉

手语识别摄像头实时手语→文字(不是手语翻译 App,是自然交互的一部分)
实时字幕语音→文字,带情感标注([开心的语气]、[严肃的提醒])
文字→语音用户打字→AI 用自然的语音替他/她说话(语调可选)
视觉优先 UI大字体、高对比度、图标驱动、最小文字量
触觉反馈重要通知通过震动传递(不是依赖声音警报)

3.2 硬件形态

3.3 关键场景

面对面交流手语→语音 + 对方语音→字幕,实时双向翻译
电话沟通来电→字幕显示,用户打字→AI 语音回复
紧急求助震动警报 + 文字显示 + 一键呼叫
情感陪伴表情识别 → 文字共情回应,不是冷冰冰的聊天
信息获取视频自动字幕、语音内容文字化

3.4 差异化价值

聋哑人的核心痛点不是"听不见",是"无法平等参与信息流"。

Aethony 不是翻译器,是桥梁——让聋哑人以同等速度、同等质量接入信息世界。

"我帮你听见和表达"——不是辅助工具,是平等的交互伙伴。

四、技术可行性评估

语音交互(盲人)✅ 成熟ASR + TTS + 情感合成
环境描述(盲人)⚠️ 发展中摄像头 + 视觉理解 + 空间感知
出行导航(盲人)⚠️ 发展中GPS + 摄像头 + 障碍物检测
手语识别(聋哑人)⚠️ 发展中摄像头 + CV 手势识别
实时字幕(聋哑人)✅ 成熟ASR + 情感分析
触觉反馈✅ 成熟震动马达 + 触觉编码
最大技术缺口:手语识别和环境描述的实时性。建议 Phase 1 先实现语音/文字通道,Phase 2 再叠加视觉/触觉。

五、MVP 优先级

Phase 1(1-2 月)

Phase 2(2-4 月)

Phase 3(3-6 月)


六、与五行飞轮的集成

无障碍场景下的飞轮适配

盲人纯语音输出飞轮结果(不显示卡片),收敛结论通过语音语调传递
聋哑人纯视觉/文字输出飞轮结果(不依赖语音),情感通过文字标注和界面颜色传递
老人轻量飞轮(2 轮),结论极简("建议这样做"),不展示推理过程

七、战略意义

无障碍场景是 Aethony 架构的最佳验证场景。

如果 Aethony 能:

那它对普通用户的价值就是不言而喻的。

这不是慈善项目,这是能力证明


*Spark 补位完成 | 2026-05-21*