ARCHITECTURE

MOLA 架构演进总览

一、演进历程概览

MOLA（Multi-Orchestration Learning Architecture）作为智能语音助手的核心架构，从2025年9月至2026年2月，经历了从V1到V3的三代演进。架构从"大小模型混合"到"双大模型"，再到"多智能体协同"，实现了响应速度、理解深度和智能化水平的跨越式提升。

演进时间线：

V1 (2025.09) → V2 (2025.12) → V3 (2026.02)
   大小模型混合      双大模型         多智能体协同

二、总体架构演进图

V1架构图 (2025.09 - 大小模型混合架构)

flowchart TB
    User1[用户语音输入] --> ThirdASR["第三方ASR 800ms"]

    subgraph Parallel1["并行处理层"]
        SmallNLU["小模型NLU 百科/拒识/垂域NLU"]
        subgraph LLM["大模型流水线 Qwen2.5-7B"]
            Rewriter["① 改写模型 支持2轮对话改写"]
            IntentSplitter["② 多意图拆解模型"]
            FunctionCaller["③ Function Call 口语化指令解析"]
        end
    end

    ThirdASR --> Parallel1
    SmallNLU --> RuleFusion[规则融合模块]
    FunctionCaller --> RuleFusion
    RuleFusion --> TTS --> 语音输出

V2架构图 (2025.12 - 双大模型架构)

flowchart TB
    User2[用户语音输入] --> SelfASR["自研ASR+VAD 400-600ms"]

    subgraph Parallel2["并行计算层 (ASR完成后启动)"]
        SysAgent["System Agent 收编:改写+拆解+百科+拒识 任务规划与路由"]
        FuncCall["Function Call模型 口语化指令解析+API拒答 1000+工具调用"]
    end

    SelfASR -->|VAD抢跑计算| Parallel2
    SysAgent -.-->|改写/多意图辅助| FuncCall
    FuncCall --> AIEE["AIEE 业务策略执行引擎"]
    AIEE --> TTS --> 语音输出

V3架构图 (2026.02 - 多智能体协同架构)

flowchart TB
    User3[用户语音输入] --> SelfASR3["自研ASR+VAD"]
    SelfASR3 --> SA["System Agent A2A分发+播报生成 50轮上下文+1周场景记忆"]
    MultiZone["多音区/识人特征"] --> SA

    subgraph Agents["专业化智能体"]
        Car["车控Agent 40+高频API 状态感知+追问"]
        Nav["导航Agent React 17+API Multi-turn Tool Call"]
        Other["其他Agent 多媒体/通讯 Function Call"]
    end

    VehicleState["车辆实时状态 130+"] --> Car
    SA -->|任务分发| Car
    SA -->|任务分发| Nav
    SA -->|任务分发| Other
    Car -->|API调用| CA["车机端"]
    Nav -->|API调用+notify| CA
    Other -->|API调用| CA
    CA -->|状态回传| SA
    SA -->|生成播报| CA

三、关键特性对比总览

维度	V1 (2025.09)	V2 (2025.12)	V3 (2026.02)	演进方向
架构模式	大小模型混合	双大模型架构	多智能体协同架构 + A2A编排	集群化
ASR方案	第三方ASR (800ms)	自研ASR+VAD (400-600ms)	自研ASR+VAD	自研化
大模型化	改写/拆解/Function Call三模型	System Agent+Function Call双模型	多Agent专业化	专业化
小模型收编	百科/拒识/垂域NLU独立小模型	小模型完全收编至大模型	完全大模型化	大模型化
计算与延迟	ASR完成后并行处理	VAD抢跑计算节省600ms	专业化并行执行	并行化
多轮对话深度	2轮	5轮	50轮+1周情景记忆	深度化
任务分发	规则融合模块	System Agent任务规划	System Agent A2A分发	智能化
智能体	无	无	车控/导航/其他/记忆Agent (A2A编排)	专业化
导航能力	Function Call统一处理	Function Call统一处理	React Agent+Multi-turn Tool Call	深度化
车控能力	百科/垂域NLU处理	Function Call统一处理	车控Agent+状态感知+追问	专业化
记忆能力	2轮对话历史	5轮对话历史	50轮对话+1周情景+语义记忆	智能化
状态感知	无	基础状态	多音区+识人+130+车辆状态	智能化
感受类理解	不支持	不支持	状态感知+追问	智能化
漏拒率	聆听态35%	聆听态小于3%	聆听态小于3%	精准化
部署架构	终端+云端混合	纯云架构	纯云架构	平台化

四、核心能力演进详解

4.1 ASR与延迟优化演进

版本	ASR方案	耗时	优化项	优化效果
V1	第三方ASR	800ms	-	-
V2	自研ASR+VAD	400-600ms	自研替代第三方	节省200ms
V2	自研ASR+VAD	-	VAD抢跑计算	节省300ms
V2	自研ASR+VAD	-	导航Warmup提前	节省600ms
V3	自研ASR+VAD	-	并行专业化Agent执行	进一步优化

V2核心优化：VAD抢跑计算

VAD计算时即启动System Agent和Function Call
VAD期间识别导航意图，提前下发warmup请求
拉齐地图初始化、鉴权、三方服务预热

4.2 架构演进路线

资源约束阶段              能力释放阶段              专业化协同阶段
     V1          ──────────→        V2      ──────────→        V3
     │                        │                       │
  大小模型混合            双大模型               多智能体协同
  规则融合               System Agent            System Agent A2A
  三模型流水线           自研ASR+VAD             四大专业Agent
  第三方ASR              抢跑计算600ms            状态感知130+状态
  2轮多轮               5轮多轮+大模型化拒识      50轮+1周场景记忆

4.3 多轮对话深度演进

版本	对话深度	记忆类型	多轮改写准确率	上下文继承能力
V1	2轮	对话历史	-	2轮
V2	5轮	对话历史	大于92%	5轮
V3	50轮	对话历史	-	50轮
V3	-	对话历史+用户偏好+场景上下文	-	-
V3	1周情景	1周内所有session	-	跨会话理解
V3	语义记忆	用户偏好/习惯/常去地点	-	个性化深度

V3记忆Agent能力升级：

短期记忆：5轮 → 50轮（10倍深度扩展）
情景记忆：1周内所有session加载到模型
语义记忆：用户偏好/习惯/常去地点存储
A2A交互：仅与System Agent交互，支持复杂功能穿插

4.4 拒识能力演进

版本	首轮漏拒率	聆听态漏拒率	拒识机制
V1	小于3%	35%	小模型规则拒识
V2	小于3%	小于3%	大模型化拒识（System Agent句级 + Function Call API级）
V3	小于3%	小于3%	System Agent句级 + Function Call API级

4.5 智能体专业化演进

智能体	V1	V2	V3
任务规划	改写模型	System Agent	System Agent (A2A分发+播报生成)
车控能力	百科/垂域NLU	Function Call (700+工具RAG)	车控Agent (40+高频API+状态感知+追问)
导航能力	Function Call	Function Call (17+API)	导航Agent React (17+API+Multi-turn Tool Call)
其他能力	垂域NLU	Function Call	其他Agent (Function Call模型)
记忆能力	2轮对话	5轮对话	记忆Agent (50轮对话+1周情景+语义记忆)

车控Agent能力升级对比：

对比项	V2架构	V3架构	提升
工具/API数量	700+工具（RAG检索）	40+高频API固化	智能化上限大幅提升
能力模式	广覆盖浅能力	深专业化能力	垂直领域深度
实时状态感知	不支持	130+状态感知	状态感知能力
追问能力	不支持	结合状态的追问	感受类指令交互

导航Agent能力升级对比：

对比项	V2架构	V3架构	提升
API数量	17+导航API（统一处理）	17+API（专业化编排）	单指令多API编排
推理模式	单轮工具调用（Function Call）	TIR模型 + Multi-turn Tool Call	复杂指令处理 + 工具执行结果感知
工具编排	单次API调用	自主多工具编排	复杂指令支持
交互模式	单轮交互	多轮交互模型	用户多轮交互支持
结束机制	N/A	notify_user结束React循环	循环控制

4.6 状态感知演进

版本	多音区特征	识人特征	跨音区交互	车辆状态
V1	不支持	不支持	不支持	不支持
V2	不支持	不支持	不支持	基础状态
V3	支持	支持	支持	130+状态

多音区与识人能力（V3新增）：

多音区识别：识别用户所在音区（主驾/副驾/后排等）
音区差异化：不同音区提供差异化服务
用户识别：声纹识别 + 人脸识别
个性化交互：基于用户历史的个性化推荐与响应

实时车辆状态感知（V3新增）：

环境状态：30+（温度、湿度、光线等）
车辆状态：50+（速度、档位、电量等）
系统状态：50+（车机、APP、连接状态等）

五、V3 A2A规划机制与TTS播报

V3版本的核心创新在于System Agent的A2A（Agent-to-Agent）规划与编排机制。

5.1 A2A规划机制

System Agent通过Prompt工程方式将各垂域Agent的能力描述注入到上下文中，实现智能化任务规划。

当前实现的Agent：

Agent类型	能力描述	输入格式	输出格式
车控Agent	车辆控制40+高频API	{subtask: string}	{tts: "", result: object}
导航Agent	导航17+API，React Agent	{subtask: string}	{tts: string, result: {}}
记忆Agent	情景记忆+语义记忆	{subtask: string}	{tts: "", result: object}
其他Agent	多媒体/通讯等	{subtask: string}	车机端固定模板

5.2 TTS播报双模式

模式	适用场景	流程	示例
Agent自生成	领域专业术语/复杂结果	Agent生成 → System直接下发	导航Agent播报路线规划详情
System生成	简单结果/多Agent编排	Agent返回数据 → System生成	车控控制确认播报

5.3 多步骤编排示例

案例：导航到我奶奶家

Step1: 记忆Agent查询奶奶家地址
  ↓ 输出: $res1 = "北京市朝阳区xxx路xxx号"

Step2: 导航Agent导航到$res1
  ↓ 输出: "已为您规划前往奶奶家的路线，全程12.5公里"

六、应用场景演进

6.1 V1时代：基础对话能力

多轮对话示例：

"导航去机场T3" → "去T2" 改写为"导航去机场T2"
"查周杰伦的专辑" → "林俊杰呢？" 改写为"查林俊杰的专辑"

多意图拆解示例：

"打开天窗空调座椅加热，关上车窗遮阳帘，导航去机场，播放周杰伦的歌" → 8项操作同时执行

口语化车控示例：

"打开车耳朵" → 打开后视镜
"打开头顶的灯" → 打开阅读灯
"把座椅调舒服点" → 调节至舒适模式

6.2 V2时代：端到端大模型能力

大模型化拒识：

句级拒识：System Agent拦截不通顺语句
API级拒识：Function Call拒绝不支持的API调用

流式响应：

VAD抢跑计算，节省600ms延迟
自研ASR+VAD优化，耗时400-600ms

6.3 V3时代：多智能体专业化能力

车控Agent状态感知：

"所有开着的车窗都关小10%" → 结合130+车辆状态，识别开着的车窗并精确控制
"我很冷" → 结合当前温度、设定温度追问调节幅度

导航Agent复杂指令：

"导航到最近的麦当劳" → React Agent：POI搜索 → 选择最近 → 启动导航

记忆Agent跨会话：

"导航去我奶奶家，中途去趟天坛，最后去公司" → 记忆Agent提供地址，多Agent编排执行

多音区差异化：

主驾说"打开车窗" → 打开主驾车窗
副驾说"打开车窗" → 打开副驾车窗

七、技术指标与性能对比

指标维度	V1	V2	V3
ASR延迟	800ms	400-600ms	400-600ms
多轮对话深度	2轮	5轮	50轮+1周情景记忆
多轮改写准确率	-	大于92%	待定
首轮漏拒率	小于3%	小于3%	小于3%
聆听态漏拒率	35%	小于3%	小于3%
导航复杂指令	基础	基础	Multi-turn支持+工具编排
车控能力	垂域NLU处理	700+工具（RAG检索）	40+高频API+状态感知
状态感知	无	基础	130+状态+多音区+识人
个性化能力	基础	基础	多音区+识人+语义记忆
A2A编排	不支持	不支持	支持
感受类指令	不支持	不支持	支持

八、架构演进总结

架构版本

50轮+

V3对话深度

130+

V3状态感知

<3%

V2/V3漏拒率

核心演进趋势

大模型化演进：从大小模型混合 → 双大模型 → 多智能体协同
专业化演进：从统一处理 → 垂直领域Agent专业化
智能化演进：从规则驱动 → System Agent智能调度 → A2A深度编排
深度化演进：从2轮对话 → 5轮 → 50轮+1周情景记忆
感知化演进：从无状态感知 → 基础状态 → 130+实时状态+多音区+识人

架构价值演进

维度	V1	V2	V3
核心价值	资源优化	端到端能力+大模型化	专业化+协同化+智能化
响应速度	简单任务快	流式响应（节省600ms）	专业化并行执行
理解深度	基础理解	深度理解+大模型化拒识	垂直领域深度+状态感知
智能化水平	规则驱动	模型驱动	多智能体协同驱动
扩展性	低（需重训）	中（平台化）	高（Agent化）

V3架构核心价值

专业化：垂直领域Agent深耕各自领域，能力深度大幅提升
协同化：A2A交互实现智能体间协同编排
智能化：130+状态感知 + 50轮上下文深度 + 1周情景记忆
个性化：多音区 + 识人特征 + 语义记忆 + 长期用户偏好学习
连续性：情景记忆打破单会话限制，实现跨会话的连贯交互
平台化：纯云架构天然具备平台化优势

未来演进方向

基于V3架构，未来可能演进方向包括：

动态能力发现：Agent能力动态注册与发现
跨智能体交互：不仅是与System Agent交互，Agent间直接协作
编排引擎独立：将A2A规划能力独立为编排引擎
更多垂域Agent：新增天气、娱乐、通讯等专业化Agent
记忆Agent深度：更长期的记忆存储与检索能力

文档版本：v2.0 | 最后更新：2026年2月11日 | MOLA架构演进系列文档