MILESTONES

语音系统全链路里程碑规划

基于 MOLA V3 多智能体协同架构,从云端沙盒原型到生产级系统的演进路线。核心逻辑:先虚拟验证,再真实控制;先单轮打通,再多轮深化;先功能闭环,再体验升级

M1→M6
6个里程碑
4-6月
预期交付周期
10人
精英团队
M1
沙盒原型
云端多Agent原型
(验证架构)
M2
台架单轮
CDC链路打通
(端到端跑通)
M3
多轮+真实化
多轮交互+mock转真实
(能力深化)
M4
端侧+状态
ASR/TTS+记忆+同步
(体验升级)
M5
模型升级
VL+Omni
(模型演进)
M6
闭环体系
评测+数据回流
(工程体系)

M1:云端沙盒原型

目标:在云端搭建多智能体原型,验证架构可行性与端到端链路。

条目内容说明
沙盒搭建多智能体云端沙盒车控 mock / 音乐 mock,导航使用高德 API,百科使用豆包原生 wiki search
模型选型Qwen3.5 系列SA Agent + 垂域 Agent 统一使用 Qwen3.5,降低初期选型复杂度

交付物:云端可运行的沙盒 demo,语音输入→Agent 规划→mock 执行→播报输出

M2:CDC 台架单轮打通

目标:连接虚拟与现实,打通云端沙盒到 CDC 台架的端到端单轮控制。

条目内容说明
台架打通打通 CDC 台架和云端沙盒网络链路、协议适配、鉴权打通
单轮控制支持单轮请求如"打开车窗",验证从语音到车控执行的完整链路

交付物:CDC 台架上可单轮语音控制车控/导航等能力

M3:多轮交互 + 真实化升级

目标:从单轮到多轮,从 mock 到真实,实现深度交互与真实控制。

条目内容说明
多轮交互在单轮基础上补充多轮多轮对话上下文管理、追问、指代消解等
沙盒→真实基于沙盒扩展到真实在线系统架构从原型级向生产级演进
车控真实化车控 mock → 真实原子函数注册/管理中心可真实控制 CDC 车控功能
音乐真实化音乐 mock → 真实原子函数注册/管理中心可真实控制 CDC 多媒体功能
导航真实化扩展导航 APK可在 CDC 真实渲染导航路线等变化

交付物:CDC 台架上多轮语音交互 + 车控/音乐/导航三项真实控制

M4:端侧升级 + 状态同步

目标:端侧 ASR/TTS 自研替换,增强记忆与状态管理,提升交互体验。

条目内容说明
ASR/TTS 替换端侧支持切换 Qwen3-ASR / Qwen3-TTS自研 ASR/TTS 替换现有方案,支持可录制真实交互
记忆增强增强记忆能力个人属性记忆 + 情景记忆(跨会话)
状态同步构建状态管理/同步模块车辆状态双向实时同步,端侧二次校验机制

交付物:自研 ASR/TTS 上线 + 记忆系统可用 + 车辆状态实时同步

M5:模型升级

目标:垂域 Agent 视觉感知,System Agent 多模态融合,推动架构向 V4 演进。

条目内容说明
垂域 VL垂域 Agent 升级 VL从导航开始,支持大屏上导航 APK 界面的视觉感知
SA OmniSystem Agent 升级 Omni音频输入→规划输出,直接输出 TTS,减少级联延迟
个性化支持个性化设定 + 分账号记忆体系不同用户独立偏好与记忆
TTS 优化优化 TTS 播报风格精简播报,避免冗余重复

交付物:VL 导航 Agent demo + Omni SA 可用 + 个性化 + TTS 风格优化

M6:评测闭环 + 数据体系

目标:构建评测、迭代、可观测、数据回流的完整工程体系,支撑持续进化。

条目内容说明
测试集构建多维度测试集全面评测智能化能力,支持横向对比
迭代 Pipeline构建迭代 pipeline测试集分析 → 仿真复验 → 训练 → 部署,自动化迭代
延迟看板构建延迟统计和查询看板追踪体系,主动挖掘长延迟请求及问题分析
数据回流构建数据回流体系 + 数据挖掘自动化线上交互数据回流,自动化挖掘训练样本

交付物:评测基准 + 自动化迭代流程 + 延迟可观测 + 数据闭环

里程碑依赖关系

M1 ──→ M2 ──→ M3 ──→ M4 ──→ M5 ──→ M6
       │              ↑       ↑       ↑
       │              │       │       │
       └──────────────┘       │       │
                              │       │
              M3真实化是M4的基础  M4是M5的基础  M5是M6的前提
里程碑核心验证点关键风险
M1架构可行性Agent 间通信延迟、Qwen3.5 工具调用准确率
M2端到端链路CDC 网络连通性、协议适配
M3真实控制能力原子函数注册复杂度、导航 APK 集成
M4交互体验Qwen3-ASR/TTS 延迟与质量、状态同步一致性
M5多模态感知VL 界面理解准确率、Omni 级联延迟优化
M6工程体系数据回流合规性、迭代 pipeline 可靠性
文档版本:v0.1(草稿)  |  最后更新:2026年5月12日