MILESTONES
语音系统全链路里程碑规划
基于 MOLA V3 多智能体协同架构,从云端沙盒原型到生产级系统的演进路线。核心逻辑:先虚拟验证,再真实控制;先单轮打通,再多轮深化;先功能闭环,再体验升级。
M1→M6
6个里程碑
4-6月
预期交付周期
10人
精英团队
M1
沙盒原型
云端多Agent原型
(验证架构)
(验证架构)
→
M2
台架单轮
CDC链路打通
(端到端跑通)
(端到端跑通)
→
M3
多轮+真实化
多轮交互+mock转真实
(能力深化)
(能力深化)
→
M4
端侧+状态
ASR/TTS+记忆+同步
(体验升级)
(体验升级)
→
M5
模型升级
VL+Omni
(模型演进)
(模型演进)
→
M6
闭环体系
评测+数据回流
(工程体系)
(工程体系)
M1:云端沙盒原型
目标:在云端搭建多智能体原型,验证架构可行性与端到端链路。
| 条目 | 内容 | 说明 |
|---|---|---|
| 沙盒搭建 | 多智能体云端沙盒 | 车控 mock / 音乐 mock,导航使用高德 API,百科使用豆包原生 wiki search |
| 模型选型 | Qwen3.5 系列 | SA Agent + 垂域 Agent 统一使用 Qwen3.5,降低初期选型复杂度 |
交付物:云端可运行的沙盒 demo,语音输入→Agent 规划→mock 执行→播报输出
M2:CDC 台架单轮打通
目标:连接虚拟与现实,打通云端沙盒到 CDC 台架的端到端单轮控制。
| 条目 | 内容 | 说明 |
|---|---|---|
| 台架打通 | 打通 CDC 台架和云端沙盒 | 网络链路、协议适配、鉴权打通 |
| 单轮控制 | 支持单轮请求 | 如"打开车窗",验证从语音到车控执行的完整链路 |
交付物:CDC 台架上可单轮语音控制车控/导航等能力
M3:多轮交互 + 真实化升级
目标:从单轮到多轮,从 mock 到真实,实现深度交互与真实控制。
| 条目 | 内容 | 说明 |
|---|---|---|
| 多轮交互 | 在单轮基础上补充多轮 | 多轮对话上下文管理、追问、指代消解等 |
| 沙盒→真实 | 基于沙盒扩展到真实在线系统 | 架构从原型级向生产级演进 |
| 车控真实化 | 车控 mock → 真实原子函数注册/管理中心 | 可真实控制 CDC 车控功能 |
| 音乐真实化 | 音乐 mock → 真实原子函数注册/管理中心 | 可真实控制 CDC 多媒体功能 |
| 导航真实化 | 扩展导航 APK | 可在 CDC 真实渲染导航路线等变化 |
交付物:CDC 台架上多轮语音交互 + 车控/音乐/导航三项真实控制
M4:端侧升级 + 状态同步
目标:端侧 ASR/TTS 自研替换,增强记忆与状态管理,提升交互体验。
| 条目 | 内容 | 说明 |
|---|---|---|
| ASR/TTS 替换 | 端侧支持切换 Qwen3-ASR / Qwen3-TTS | 自研 ASR/TTS 替换现有方案,支持可录制真实交互 |
| 记忆增强 | 增强记忆能力 | 个人属性记忆 + 情景记忆(跨会话) |
| 状态同步 | 构建状态管理/同步模块 | 车辆状态双向实时同步,端侧二次校验机制 |
交付物:自研 ASR/TTS 上线 + 记忆系统可用 + 车辆状态实时同步
M5:模型升级
目标:垂域 Agent 视觉感知,System Agent 多模态融合,推动架构向 V4 演进。
| 条目 | 内容 | 说明 |
|---|---|---|
| 垂域 VL | 垂域 Agent 升级 VL | 从导航开始,支持大屏上导航 APK 界面的视觉感知 |
| SA Omni | System Agent 升级 Omni | 音频输入→规划输出,直接输出 TTS,减少级联延迟 |
| 个性化 | 支持个性化设定 + 分账号记忆体系 | 不同用户独立偏好与记忆 |
| TTS 优化 | 优化 TTS 播报风格 | 精简播报,避免冗余重复 |
交付物:VL 导航 Agent demo + Omni SA 可用 + 个性化 + TTS 风格优化
M6:评测闭环 + 数据体系
目标:构建评测、迭代、可观测、数据回流的完整工程体系,支撑持续进化。
| 条目 | 内容 | 说明 |
|---|---|---|
| 测试集 | 构建多维度测试集 | 全面评测智能化能力,支持横向对比 |
| 迭代 Pipeline | 构建迭代 pipeline | 测试集分析 → 仿真复验 → 训练 → 部署,自动化迭代 |
| 延迟看板 | 构建延迟统计和查询看板 | 追踪体系,主动挖掘长延迟请求及问题分析 |
| 数据回流 | 构建数据回流体系 + 数据挖掘自动化 | 线上交互数据回流,自动化挖掘训练样本 |
交付物:评测基准 + 自动化迭代流程 + 延迟可观测 + 数据闭环
里程碑依赖关系
M1 ──→ M2 ──→ M3 ──→ M4 ──→ M5 ──→ M6
│ ↑ ↑ ↑
│ │ │ │
└──────────────┘ │ │
│ │
M3真实化是M4的基础 M4是M5的基础 M5是M6的前提
| 里程碑 | 核心验证点 | 关键风险 |
|---|---|---|
| M1 | 架构可行性 | Agent 间通信延迟、Qwen3.5 工具调用准确率 |
| M2 | 端到端链路 | CDC 网络连通性、协议适配 |
| M3 | 真实控制能力 | 原子函数注册复杂度、导航 APK 集成 |
| M4 | 交互体验 | Qwen3-ASR/TTS 延迟与质量、状态同步一致性 |
| M5 | 多模态感知 | VL 界面理解准确率、Omni 级联延迟优化 |
| M6 | 工程体系 | 数据回流合规性、迭代 pipeline 可靠性 |