ARCHITECTURE

MOLA V2 架构详解

一、架构概述

MOLA V2版本(2025.12)在V1的基础上进行了架构重构,实现了小模型的全面收编,从"大小模型混合架构"演进为"双大模型架构"。通过构建System Agent和Function Call两个大模型,实现了能力的深度整合;结合自研ASR和VAD的流式抢跑技术,整体延迟降低600ms。

核心设计理念

二、系统架构图

2.1 完整架构流程

flowchart TB
    subgraph V2_Arch["MOLA V2 完整架构 (2025.12)"]
        User[用户语音输入] --> ASR["自研ASR+VAD"]
        ASR -->|启动并行计算| Parallel
        subgraph Parallel["并行计算层"]
            SysAgent["① System Agent 意图理解与路由"]
            FuncCall["② Function Call 1000+工具调用"]
            SysAgent -.->|改写/多意图| FuncCall
        end
        FuncCall --> AIEE["AIEE业务引擎"]
        AIEE --> TTS["TTS语音合成"]
        TTS --> Audio[语音输出]
    end

2.2 延迟优化

延迟优化明细

优化项V1耗时V2耗时节省说明
自研ASR+VAD800ms400-600ms200ms替代第三方ASR+VAD
模型并行(小模型)300ms(System+FC并行)100msSystem Agent与Function Call并行
VAD抢跑计算等待ASR完成VAD计算时启动300ms利用VAD计算时间并行推理
导航Warmup提前--VAD期间提前Warmup600ms提前热身地图/鉴权/三方服务

优化说明

三、架构优势与创新点(对比V1)

MOLA V2架构相较V1版本,通过构建System Agent快思考模型和自研ASR+VAD,实现了架构的深度优化和响应速度的显著提升。

3.1 对比概览:从并行处理到抢跑计算

对比维度V1架构V2架构
ASR方案第三方ASR自研ASR + VAD
大模型化改写、拆解、Function Call三模型流水线;百科、拒识、垂域NLU小模型并存System Agent + Function Call双模型;小模型完全收编到大模型
计算与延迟优化ASR完成后并行处理大模型VAD触发即启动抢跑计算,节省600ms
拒识能力小模型规则拒识大模型化拒识(System Agent句级 + Function Call API级)

3.2 架构优势详解

延迟优化:真正的流式响应

优化项V1架构V2架构
ASR完成后的计算延迟需等待ASR完全结束VAD触发即开始计算
整体响应延迟优化基准节省600ms
用户感知延迟明显等待感知接近即时响应
部署架构终端+云端混合纯云架构,天然平台化优势

模型整合:从多模型到双模型

模型来源整合前(V1)整合后(V2)说明
改写模型(大)独立模型System Agent意图理解与路由
拆解模型(大)独立模型System Agent意图拆解能力
百科(小)独立小模型System Agent大模型泛化
拒识(小)独立小模型System Agent句级拒识
整合12大+2小 → System Agent减少4个模型,统一入口
垂域NLU(小)独立小模型Function Call语义能力提升
FC部分功能Function Call(大)System Agent能力增强
整合21大+1小 → System AgentFC模型专注

多轮对话:上下文深度扩展

能力维度V1架构V2架构
历史对话深度2轮5轮
多轮改写准确率-->92%
TTS回复感知不支持(2轮)支持从历史回复继承(5轮)

大模型化拒识:漏拒大幅降低

指标维度V1架构V2架构
首轮漏拒率小于3%小于3%
聆听态漏拒率35%小于3%

小结

MOLA V2通过构建System Agent快思考模型和自研ASR+VAD,实现了从V1的"大小模型混合"到"全面大模型化"的架构演进。System Agent收编改写、拆解、百科、拒识4个模型,Function Call收编小模型NLU实现1000+工具调用。VAD抢跑计算节省600ms延迟,多轮对话深度拓展至5轮(准确率>92%),聆听态漏拒率从35%降至小于3%。纯云架构天然具备平台化优势,为后续版本的多智能体演进奠定了性能基础。

文档版本:v1.0  |  最后更新:2026年2月  |  MOLA架构演进系列文档