ARCHITECTURE

MOLA 架构演进总览

一、演进历程概览

MOLA(Multi-Orchestration Learning Architecture)作为智能语音助手的核心架构,从2025年9月至2026年2月,经历了从V1到V3的三代演进。架构从"大小模型混合"到"双大模型",再到"多智能体协同",实现了响应速度、理解深度和智能化水平的跨越式提升。

演进时间线

V1 (2025.09) → V2 (2025.12) → V3 (2026.02)
   大小模型混合      双大模型         多智能体协同

二、总体架构演进图

V1架构图 (2025.09 - 大小模型混合架构)

flowchart TB
    User1[用户语音输入] --> ThirdASR["第三方ASR 800ms"]

    subgraph Parallel1["并行处理层"]
        SmallNLU["小模型NLU 百科/拒识/垂域NLU"]
        subgraph LLM["大模型流水线 Qwen2.5-7B"]
            Rewriter["① 改写模型 支持2轮对话改写"]
            IntentSplitter["② 多意图拆解模型"]
            FunctionCaller["③ Function Call 口语化指令解析"]
        end
    end

    ThirdASR --> Parallel1
    SmallNLU --> RuleFusion[规则融合模块]
    FunctionCaller --> RuleFusion
    RuleFusion --> TTS --> 语音输出

V2架构图 (2025.12 - 双大模型架构)

flowchart TB
    User2[用户语音输入] --> SelfASR["自研ASR+VAD 400-600ms"]

    subgraph Parallel2["并行计算层 (ASR完成后启动)"]
        SysAgent["System Agent 收编:改写+拆解+百科+拒识 任务规划与路由"]
        FuncCall["Function Call模型 口语化指令解析+API拒答 1000+工具调用"]
    end

    SelfASR -->|VAD抢跑计算| Parallel2
    SysAgent -.-->|改写/多意图辅助| FuncCall
    FuncCall --> AIEE["AIEE 业务策略执行引擎"]
    AIEE --> TTS --> 语音输出

V3架构图 (2026.02 - 多智能体协同架构)

flowchart TB
    User3[用户语音输入] --> SelfASR3["自研ASR+VAD"]
    SelfASR3 --> SA["System Agent A2A分发+播报生成 50轮上下文+1周场景记忆"]
    MultiZone["多音区/识人特征"] --> SA

    subgraph Agents["专业化智能体"]
        Car["车控Agent 40+高频API 状态感知+追问"]
        Nav["导航Agent React 17+API Multi-turn Tool Call"]
        Other["其他Agent 多媒体/通讯 Function Call"]
    end

    VehicleState["车辆实时状态 130+"] --> Car
    SA -->|任务分发| Car
    SA -->|任务分发| Nav
    SA -->|任务分发| Other
    Car -->|API调用| CA["车机端"]
    Nav -->|API调用+notify| CA
    Other -->|API调用| CA
    CA -->|状态回传| SA
    SA -->|生成播报| CA

三、关键特性对比总览

维度V1 (2025.09)V2 (2025.12)V3 (2026.02)演进方向
架构模式大小模型混合双大模型架构多智能体协同架构 + A2A编排集群化
ASR方案第三方ASR (800ms)自研ASR+VAD (400-600ms)自研ASR+VAD自研化
大模型化改写/拆解/Function Call三模型System Agent+Function Call双模型多Agent专业化专业化
小模型收编百科/拒识/垂域NLU独立小模型小模型完全收编至大模型完全大模型化大模型化
计算与延迟ASR完成后并行处理VAD抢跑计算节省600ms专业化并行执行并行化
多轮对话深度2轮5轮50轮+1周情景记忆深度化
任务分发规则融合模块System Agent任务规划System Agent A2A分发智能化
智能体车控/导航/其他/记忆Agent (A2A编排)专业化
导航能力Function Call统一处理Function Call统一处理React Agent+Multi-turn Tool Call深度化
车控能力百科/垂域NLU处理Function Call统一处理车控Agent+状态感知+追问专业化
记忆能力2轮对话历史5轮对话历史50轮对话+1周情景+语义记忆智能化
状态感知基础状态多音区+识人+130+车辆状态智能化
感受类理解不支持不支持状态感知+追问智能化
漏拒率聆听态35%聆听态小于3%聆听态小于3%精准化
部署架构终端+云端混合纯云架构纯云架构平台化

四、核心能力演进详解

4.1 ASR与延迟优化演进

版本ASR方案耗时优化项优化效果
V1第三方ASR800ms--
V2自研ASR+VAD400-600ms自研替代第三方节省200ms
V2自研ASR+VAD-VAD抢跑计算节省300ms
V2自研ASR+VAD-导航Warmup提前节省600ms
V3自研ASR+VAD-并行专业化Agent执行进一步优化

V2核心优化:VAD抢跑计算

4.2 架构演进路线

资源约束阶段              能力释放阶段              专业化协同阶段
     V1          ──────────→        V2      ──────────→        V3
     │                        │                       │
  大小模型混合            双大模型               多智能体协同
  规则融合               System Agent            System Agent A2A
  三模型流水线           自研ASR+VAD             四大专业Agent
  第三方ASR              抢跑计算600ms            状态感知130+状态
  2轮多轮               5轮多轮+大模型化拒识      50轮+1周场景记忆

4.3 多轮对话深度演进

版本对话深度记忆类型多轮改写准确率上下文继承能力
V12轮对话历史-2轮
V25轮对话历史大于92%5轮
V350轮对话历史-50轮
V3-对话历史+用户偏好+场景上下文--
V31周情景1周内所有session-跨会话理解
V3语义记忆用户偏好/习惯/常去地点-个性化深度

V3记忆Agent能力升级

4.4 拒识能力演进

版本首轮漏拒率聆听态漏拒率拒识机制
V1小于3%35%小模型规则拒识
V2小于3%小于3%大模型化拒识(System Agent句级 + Function Call API级)
V3小于3%小于3%System Agent句级 + Function Call API级

4.5 智能体专业化演进

智能体V1V2V3
任务规划改写模型System AgentSystem Agent (A2A分发+播报生成)
车控能力百科/垂域NLUFunction Call (700+工具RAG)车控Agent (40+高频API+状态感知+追问)
导航能力Function CallFunction Call (17+API)导航Agent React (17+API+Multi-turn Tool Call)
其他能力垂域NLUFunction Call其他Agent (Function Call模型)
记忆能力2轮对话5轮对话记忆Agent (50轮对话+1周情景+语义记忆)

车控Agent能力升级对比

对比项V2架构V3架构提升
工具/API数量700+工具(RAG检索)40+高频API固化智能化上限大幅提升
能力模式广覆盖浅能力深专业化能力垂直领域深度
实时状态感知不支持130+状态感知状态感知能力
追问能力不支持结合状态的追问感受类指令交互

导航Agent能力升级对比

对比项V2架构V3架构提升
API数量17+导航API(统一处理)17+API(专业化编排)单指令多API编排
推理模式单轮工具调用(Function Call)TIR模型 + Multi-turn Tool Call复杂指令处理 + 工具执行结果感知
工具编排单次API调用自主多工具编排复杂指令支持
交互模式单轮交互多轮交互模型用户多轮交互支持
结束机制N/Anotify_user结束React循环循环控制

4.6 状态感知演进

版本多音区特征识人特征跨音区交互车辆状态
V1不支持不支持不支持不支持
V2不支持不支持不支持基础状态
V3支持支持支持130+状态

多音区与识人能力(V3新增)

实时车辆状态感知(V3新增)

五、V3 A2A规划机制与TTS播报

V3版本的核心创新在于System Agent的A2A(Agent-to-Agent)规划与编排机制。

5.1 A2A规划机制

System Agent通过Prompt工程方式将各垂域Agent的能力描述注入到上下文中,实现智能化任务规划。

当前实现的Agent

Agent类型能力描述输入格式输出格式
车控Agent车辆控制40+高频API{subtask: string}{tts: "", result: object}
导航Agent导航17+API,React Agent{subtask: string}{tts: string, result: {}}
记忆Agent情景记忆+语义记忆{subtask: string}{tts: "", result: object}
其他Agent多媒体/通讯等{subtask: string}车机端固定模板

5.2 TTS播报双模式

模式适用场景流程示例
Agent自生成领域专业术语/复杂结果Agent生成 → System直接下发导航Agent播报路线规划详情
System生成简单结果/多Agent编排Agent返回数据 → System生成车控控制确认播报

5.3 多步骤编排示例

案例:导航到我奶奶家

Step1: 记忆Agent查询奶奶家地址
  ↓ 输出: $res1 = "北京市朝阳区xxx路xxx号"

Step2: 导航Agent导航到$res1
  ↓ 输出: "已为您规划前往奶奶家的路线,全程12.5公里"

六、应用场景演进

6.1 V1时代:基础对话能力

多轮对话示例

多意图拆解示例

口语化车控示例

6.2 V2时代:端到端大模型能力

大模型化拒识

流式响应

6.3 V3时代:多智能体专业化能力

车控Agent状态感知

导航Agent复杂指令

记忆Agent跨会话

多音区差异化

七、技术指标与性能对比

指标维度V1V2V3
ASR延迟800ms400-600ms400-600ms
多轮对话深度2轮5轮50轮+1周情景记忆
多轮改写准确率-大于92%待定
首轮漏拒率小于3%小于3%小于3%
聆听态漏拒率35%小于3%小于3%
导航复杂指令基础基础Multi-turn支持+工具编排
车控能力垂域NLU处理700+工具(RAG检索)40+高频API+状态感知
状态感知基础130+状态+多音区+识人
个性化能力基础基础多音区+识人+语义记忆
A2A编排不支持不支持支持
感受类指令不支持不支持支持

八、架构演进总结

3
架构版本
50轮+
V3对话深度
130+
V3状态感知
<3%
V2/V3漏拒率

核心演进趋势

  1. 大模型化演进:从大小模型混合 → 双大模型 → 多智能体协同
  2. 专业化演进:从统一处理 → 垂直领域Agent专业化
  3. 智能化演进:从规则驱动 → System Agent智能调度 → A2A深度编排
  4. 深度化演进:从2轮对话 → 5轮 → 50轮+1周情景记忆
  5. 感知化演进:从无状态感知 → 基础状态 → 130+实时状态+多音区+识人

架构价值演进

维度V1V2V3
核心价值资源优化端到端能力+大模型化专业化+协同化+智能化
响应速度简单任务快流式响应(节省600ms)专业化并行执行
理解深度基础理解深度理解+大模型化拒识垂直领域深度+状态感知
智能化水平规则驱动模型驱动多智能体协同驱动
扩展性低(需重训)中(平台化)高(Agent化)

V3架构核心价值

  1. 专业化:垂直领域Agent深耕各自领域,能力深度大幅提升
  2. 协同化:A2A交互实现智能体间协同编排
  3. 智能化:130+状态感知 + 50轮上下文深度 + 1周情景记忆
  4. 个性化:多音区 + 识人特征 + 语义记忆 + 长期用户偏好学习
  5. 连续性:情景记忆打破单会话限制,实现跨会话的连贯交互
  6. 平台化:纯云架构天然具备平台化优势

未来演进方向

基于V3架构,未来可能演进方向包括:

  1. 动态能力发现:Agent能力动态注册与发现
  2. 跨智能体交互:不仅是与System Agent交互,Agent间直接协作
  3. 编排引擎独立:将A2A规划能力独立为编排引擎
  4. 更多垂域Agent:新增天气、娱乐、通讯等专业化Agent
  5. 记忆Agent深度:更长期的记忆存储与检索能力

文档版本:v2.0 | 最后更新:2026年2月11日 | MOLA架构演进系列文档