ARCHITECTURE
MOLA 架构演进总览
一、演进历程概览
MOLA(Multi-Orchestration Learning Architecture)作为智能语音助手的核心架构,从2025年9月至2026年2月,经历了从V1到V3的三代演进。架构从"大小模型混合"到"双大模型",再到"多智能体协同",实现了响应速度、理解深度和智能化水平的跨越式提升。
演进时间线:
V1 (2025.09) → V2 (2025.12) → V3 (2026.02) 大小模型混合 双大模型 多智能体协同
二、总体架构演进图
V1架构图 (2025.09 - 大小模型混合架构)
flowchart TB
User1[用户语音输入] --> ThirdASR["第三方ASR 800ms"]
subgraph Parallel1["并行处理层"]
SmallNLU["小模型NLU 百科/拒识/垂域NLU"]
subgraph LLM["大模型流水线 Qwen2.5-7B"]
Rewriter["① 改写模型 支持2轮对话改写"]
IntentSplitter["② 多意图拆解模型"]
FunctionCaller["③ Function Call 口语化指令解析"]
end
end
ThirdASR --> Parallel1
SmallNLU --> RuleFusion[规则融合模块]
FunctionCaller --> RuleFusion
RuleFusion --> TTS --> 语音输出
V2架构图 (2025.12 - 双大模型架构)
flowchart TB
User2[用户语音输入] --> SelfASR["自研ASR+VAD 400-600ms"]
subgraph Parallel2["并行计算层 (ASR完成后启动)"]
SysAgent["System Agent 收编:改写+拆解+百科+拒识 任务规划与路由"]
FuncCall["Function Call模型 口语化指令解析+API拒答 1000+工具调用"]
end
SelfASR -->|VAD抢跑计算| Parallel2
SysAgent -.-->|改写/多意图辅助| FuncCall
FuncCall --> AIEE["AIEE 业务策略执行引擎"]
AIEE --> TTS --> 语音输出
V3架构图 (2026.02 - 多智能体协同架构)
flowchart TB
User3[用户语音输入] --> SelfASR3["自研ASR+VAD"]
SelfASR3 --> SA["System Agent A2A分发+播报生成 50轮上下文+1周场景记忆"]
MultiZone["多音区/识人特征"] --> SA
subgraph Agents["专业化智能体"]
Car["车控Agent 40+高频API 状态感知+追问"]
Nav["导航Agent React 17+API Multi-turn Tool Call"]
Other["其他Agent 多媒体/通讯 Function Call"]
end
VehicleState["车辆实时状态 130+"] --> Car
SA -->|任务分发| Car
SA -->|任务分发| Nav
SA -->|任务分发| Other
Car -->|API调用| CA["车机端"]
Nav -->|API调用+notify| CA
Other -->|API调用| CA
CA -->|状态回传| SA
SA -->|生成播报| CA
三、关键特性对比总览
| 维度 | V1 (2025.09) | V2 (2025.12) | V3 (2026.02) | 演进方向 |
|---|---|---|---|---|
| 架构模式 | 大小模型混合 | 双大模型架构 | 多智能体协同架构 + A2A编排 | 集群化 |
| ASR方案 | 第三方ASR (800ms) | 自研ASR+VAD (400-600ms) | 自研ASR+VAD | 自研化 |
| 大模型化 | 改写/拆解/Function Call三模型 | System Agent+Function Call双模型 | 多Agent专业化 | 专业化 |
| 小模型收编 | 百科/拒识/垂域NLU独立小模型 | 小模型完全收编至大模型 | 完全大模型化 | 大模型化 |
| 计算与延迟 | ASR完成后并行处理 | VAD抢跑计算节省600ms | 专业化并行执行 | 并行化 |
| 多轮对话深度 | 2轮 | 5轮 | 50轮+1周情景记忆 | 深度化 |
| 任务分发 | 规则融合模块 | System Agent任务规划 | System Agent A2A分发 | 智能化 |
| 智能体 | 无 | 无 | 车控/导航/其他/记忆Agent (A2A编排) | 专业化 |
| 导航能力 | Function Call统一处理 | Function Call统一处理 | React Agent+Multi-turn Tool Call | 深度化 |
| 车控能力 | 百科/垂域NLU处理 | Function Call统一处理 | 车控Agent+状态感知+追问 | 专业化 |
| 记忆能力 | 2轮对话历史 | 5轮对话历史 | 50轮对话+1周情景+语义记忆 | 智能化 |
| 状态感知 | 无 | 基础状态 | 多音区+识人+130+车辆状态 | 智能化 |
| 感受类理解 | 不支持 | 不支持 | 状态感知+追问 | 智能化 |
| 漏拒率 | 聆听态35% | 聆听态小于3% | 聆听态小于3% | 精准化 |
| 部署架构 | 终端+云端混合 | 纯云架构 | 纯云架构 | 平台化 |
四、核心能力演进详解
4.1 ASR与延迟优化演进
| 版本 | ASR方案 | 耗时 | 优化项 | 优化效果 |
|---|---|---|---|---|
| V1 | 第三方ASR | 800ms | - | - |
| V2 | 自研ASR+VAD | 400-600ms | 自研替代第三方 | 节省200ms |
| V2 | 自研ASR+VAD | - | VAD抢跑计算 | 节省300ms |
| V2 | 自研ASR+VAD | - | 导航Warmup提前 | 节省600ms |
| V3 | 自研ASR+VAD | - | 并行专业化Agent执行 | 进一步优化 |
V2核心优化:VAD抢跑计算
- VAD计算时即启动System Agent和Function Call
- VAD期间识别导航意图,提前下发warmup请求
- 拉齐地图初始化、鉴权、三方服务预热
4.2 架构演进路线
资源约束阶段 能力释放阶段 专业化协同阶段
V1 ──────────→ V2 ──────────→ V3
│ │ │
大小模型混合 双大模型 多智能体协同
规则融合 System Agent System Agent A2A
三模型流水线 自研ASR+VAD 四大专业Agent
第三方ASR 抢跑计算600ms 状态感知130+状态
2轮多轮 5轮多轮+大模型化拒识 50轮+1周场景记忆
4.3 多轮对话深度演进
| 版本 | 对话深度 | 记忆类型 | 多轮改写准确率 | 上下文继承能力 |
|---|---|---|---|---|
| V1 | 2轮 | 对话历史 | - | 2轮 |
| V2 | 5轮 | 对话历史 | 大于92% | 5轮 |
| V3 | 50轮 | 对话历史 | - | 50轮 |
| V3 | - | 对话历史+用户偏好+场景上下文 | - | - |
| V3 | 1周情景 | 1周内所有session | - | 跨会话理解 |
| V3 | 语义记忆 | 用户偏好/习惯/常去地点 | - | 个性化深度 |
V3记忆Agent能力升级:
- 短期记忆:5轮 → 50轮(10倍深度扩展)
- 情景记忆:1周内所有session加载到模型
- 语义记忆:用户偏好/习惯/常去地点存储
- A2A交互:仅与System Agent交互,支持复杂功能穿插
4.4 拒识能力演进
| 版本 | 首轮漏拒率 | 聆听态漏拒率 | 拒识机制 |
|---|---|---|---|
| V1 | 小于3% | 35% | 小模型规则拒识 |
| V2 | 小于3% | 小于3% | 大模型化拒识(System Agent句级 + Function Call API级) |
| V3 | 小于3% | 小于3% | System Agent句级 + Function Call API级 |
4.5 智能体专业化演进
| 智能体 | V1 | V2 | V3 |
|---|---|---|---|
| 任务规划 | 改写模型 | System Agent | System Agent (A2A分发+播报生成) |
| 车控能力 | 百科/垂域NLU | Function Call (700+工具RAG) | 车控Agent (40+高频API+状态感知+追问) |
| 导航能力 | Function Call | Function Call (17+API) | 导航Agent React (17+API+Multi-turn Tool Call) |
| 其他能力 | 垂域NLU | Function Call | 其他Agent (Function Call模型) |
| 记忆能力 | 2轮对话 | 5轮对话 | 记忆Agent (50轮对话+1周情景+语义记忆) |
车控Agent能力升级对比:
| 对比项 | V2架构 | V3架构 | 提升 |
|---|---|---|---|
| 工具/API数量 | 700+工具(RAG检索) | 40+高频API固化 | 智能化上限大幅提升 |
| 能力模式 | 广覆盖浅能力 | 深专业化能力 | 垂直领域深度 |
| 实时状态感知 | 不支持 | 130+状态感知 | 状态感知能力 |
| 追问能力 | 不支持 | 结合状态的追问 | 感受类指令交互 |
导航Agent能力升级对比:
| 对比项 | V2架构 | V3架构 | 提升 |
|---|---|---|---|
| API数量 | 17+导航API(统一处理) | 17+API(专业化编排) | 单指令多API编排 |
| 推理模式 | 单轮工具调用(Function Call) | TIR模型 + Multi-turn Tool Call | 复杂指令处理 + 工具执行结果感知 |
| 工具编排 | 单次API调用 | 自主多工具编排 | 复杂指令支持 |
| 交互模式 | 单轮交互 | 多轮交互模型 | 用户多轮交互支持 |
| 结束机制 | N/A | notify_user结束React循环 | 循环控制 |
4.6 状态感知演进
| 版本 | 多音区特征 | 识人特征 | 跨音区交互 | 车辆状态 |
|---|---|---|---|---|
| V1 | 不支持 | 不支持 | 不支持 | 不支持 |
| V2 | 不支持 | 不支持 | 不支持 | 基础状态 |
| V3 | 支持 | 支持 | 支持 | 130+状态 |
多音区与识人能力(V3新增):
- 多音区识别:识别用户所在音区(主驾/副驾/后排等)
- 音区差异化:不同音区提供差异化服务
- 用户识别:声纹识别 + 人脸识别
- 个性化交互:基于用户历史的个性化推荐与响应
实时车辆状态感知(V3新增):
- 环境状态:30+(温度、湿度、光线等)
- 车辆状态:50+(速度、档位、电量等)
- 系统状态:50+(车机、APP、连接状态等)
五、V3 A2A规划机制与TTS播报
V3版本的核心创新在于System Agent的A2A(Agent-to-Agent)规划与编排机制。
5.1 A2A规划机制
System Agent通过Prompt工程方式将各垂域Agent的能力描述注入到上下文中,实现智能化任务规划。
当前实现的Agent:
| Agent类型 | 能力描述 | 输入格式 | 输出格式 |
|---|---|---|---|
| 车控Agent | 车辆控制40+高频API | {subtask: string} | {tts: "", result: object} |
| 导航Agent | 导航17+API,React Agent | {subtask: string} | {tts: string, result: {}} |
| 记忆Agent | 情景记忆+语义记忆 | {subtask: string} | {tts: "", result: object} |
| 其他Agent | 多媒体/通讯等 | {subtask: string} | 车机端固定模板 |
5.2 TTS播报双模式
| 模式 | 适用场景 | 流程 | 示例 |
|---|---|---|---|
| Agent自生成 | 领域专业术语/复杂结果 | Agent生成 → System直接下发 | 导航Agent播报路线规划详情 |
| System生成 | 简单结果/多Agent编排 | Agent返回数据 → System生成 | 车控控制确认播报 |
5.3 多步骤编排示例
案例:导航到我奶奶家
Step1: 记忆Agent查询奶奶家地址 ↓ 输出: $res1 = "北京市朝阳区xxx路xxx号" Step2: 导航Agent导航到$res1 ↓ 输出: "已为您规划前往奶奶家的路线,全程12.5公里"
六、应用场景演进
6.1 V1时代:基础对话能力
多轮对话示例:
- "导航去机场T3" → "去T2" 改写为"导航去机场T2"
- "查周杰伦的专辑" → "林俊杰呢?" 改写为"查林俊杰的专辑"
多意图拆解示例:
- "打开天窗空调座椅加热,关上车窗遮阳帘,导航去机场,播放周杰伦的歌" → 8项操作同时执行
口语化车控示例:
- "打开车耳朵" → 打开后视镜
- "打开头顶的灯" → 打开阅读灯
- "把座椅调舒服点" → 调节至舒适模式
6.2 V2时代:端到端大模型能力
大模型化拒识:
- 句级拒识:System Agent拦截不通顺语句
- API级拒识:Function Call拒绝不支持的API调用
流式响应:
- VAD抢跑计算,节省600ms延迟
- 自研ASR+VAD优化,耗时400-600ms
6.3 V3时代:多智能体专业化能力
车控Agent状态感知:
- "所有开着的车窗都关小10%" → 结合130+车辆状态,识别开着的车窗并精确控制
- "我很冷" → 结合当前温度、设定温度追问调节幅度
导航Agent复杂指令:
- "导航到最近的麦当劳" → React Agent:POI搜索 → 选择最近 → 启动导航
记忆Agent跨会话:
- "导航去我奶奶家,中途去趟天坛,最后去公司" → 记忆Agent提供地址,多Agent编排执行
多音区差异化:
- 主驾说"打开车窗" → 打开主驾车窗
- 副驾说"打开车窗" → 打开副驾车窗
七、技术指标与性能对比
| 指标维度 | V1 | V2 | V3 |
|---|---|---|---|
| ASR延迟 | 800ms | 400-600ms | 400-600ms |
| 多轮对话深度 | 2轮 | 5轮 | 50轮+1周情景记忆 |
| 多轮改写准确率 | - | 大于92% | 待定 |
| 首轮漏拒率 | 小于3% | 小于3% | 小于3% |
| 聆听态漏拒率 | 35% | 小于3% | 小于3% |
| 导航复杂指令 | 基础 | 基础 | Multi-turn支持+工具编排 |
| 车控能力 | 垂域NLU处理 | 700+工具(RAG检索) | 40+高频API+状态感知 |
| 状态感知 | 无 | 基础 | 130+状态+多音区+识人 |
| 个性化能力 | 基础 | 基础 | 多音区+识人+语义记忆 |
| A2A编排 | 不支持 | 不支持 | 支持 |
| 感受类指令 | 不支持 | 不支持 | 支持 |
八、架构演进总结
3
架构版本
50轮+
V3对话深度
130+
V3状态感知
<3%
V2/V3漏拒率
核心演进趋势
- 大模型化演进:从大小模型混合 → 双大模型 → 多智能体协同
- 专业化演进:从统一处理 → 垂直领域Agent专业化
- 智能化演进:从规则驱动 → System Agent智能调度 → A2A深度编排
- 深度化演进:从2轮对话 → 5轮 → 50轮+1周情景记忆
- 感知化演进:从无状态感知 → 基础状态 → 130+实时状态+多音区+识人
架构价值演进
| 维度 | V1 | V2 | V3 |
|---|---|---|---|
| 核心价值 | 资源优化 | 端到端能力+大模型化 | 专业化+协同化+智能化 |
| 响应速度 | 简单任务快 | 流式响应(节省600ms) | 专业化并行执行 |
| 理解深度 | 基础理解 | 深度理解+大模型化拒识 | 垂直领域深度+状态感知 |
| 智能化水平 | 规则驱动 | 模型驱动 | 多智能体协同驱动 |
| 扩展性 | 低(需重训) | 中(平台化) | 高(Agent化) |
V3架构核心价值
- 专业化:垂直领域Agent深耕各自领域,能力深度大幅提升
- 协同化:A2A交互实现智能体间协同编排
- 智能化:130+状态感知 + 50轮上下文深度 + 1周情景记忆
- 个性化:多音区 + 识人特征 + 语义记忆 + 长期用户偏好学习
- 连续性:情景记忆打破单会话限制,实现跨会话的连贯交互
- 平台化:纯云架构天然具备平台化优势
未来演进方向
基于V3架构,未来可能演进方向包括:
- 动态能力发现:Agent能力动态注册与发现
- 跨智能体交互:不仅是与System Agent交互,Agent间直接协作
- 编排引擎独立:将A2A规划能力独立为编排引擎
- 更多垂域Agent:新增天气、娱乐、通讯等专业化Agent
- 记忆Agent深度:更长期的记忆存储与检索能力