ARCHITECTURE

MOLA V2 架构详解

一、架构概述

MOLA V2版本（2025.12）在V1的基础上进行了架构重构，实现了小模型的全面收编，从"大小模型混合架构"演进为"双大模型架构"。通过构建System Agent和Function Call两个大模型，实现了能力的深度整合；结合自研ASR和VAD的流式抢跑技术，整体延迟降低600ms。

核心设计理念：

双大模型架构：从V1的"改写→拆解→Function Call"三模型流水线演进为"System Agent + Function Call"双大模型架构，实现小模型能力全面收编
System Agent：收编改写、拆解、百科、拒识等小模型NLU功能，负责意图理解与路由分发
大模型化拒识：System Agent拦截不通顺语句，Function Call拒绝不支持的API调用
Function Call：完全收编垂域NLU，支持1000+工具调用
自研ASR+VAD流式抢跑：ASR完成后同时启动System Agent和Function Call模型，并行计算降低延迟

二、系统架构图

2.1 完整架构流程

flowchart TB
    subgraph V2_Arch["MOLA V2 完整架构 (2025.12)"]
        User[用户语音输入] --> ASR["自研ASR+VAD"]
        ASR -->|启动并行计算| Parallel
        subgraph Parallel["并行计算层"]
            SysAgent["① System Agent 意图理解与路由"]
            FuncCall["② Function Call 1000+工具调用"]
            SysAgent -.->|改写/多意图| FuncCall
        end
        FuncCall --> AIEE["AIEE业务引擎"]
        AIEE --> TTS["TTS语音合成"]
        TTS --> Audio[语音输出]
    end

2.2 延迟优化

延迟优化明细

优化项	V1耗时	V2耗时	节省	说明
自研ASR+VAD	800ms	400-600ms	200ms	替代第三方ASR+VAD
模型并行	（小模型）	300ms(System+FC并行)	100ms	System Agent与Function Call并行
VAD抢跑计算	等待ASR完成	VAD计算时启动	300ms	利用VAD计算时间并行推理
导航Warmup提前	--	VAD期间提前Warmup	600ms	提前热身地图/鉴权/三方服务

优化说明

导航Warmup：VAD计算期间识别到导航意图，提前下发warmup请求，拉齐地图初始化、鉴权、三方服务预热

三、架构优势与创新点（对比V1）

MOLA V2架构相较V1版本，通过构建System Agent快思考模型和自研ASR+VAD，实现了架构的深度优化和响应速度的显著提升。

3.1 对比概览：从并行处理到抢跑计算

对比维度	V1架构	V2架构
ASR方案	第三方ASR	自研ASR + VAD
大模型化	改写、拆解、Function Call三模型流水线；百科、拒识、垂域NLU小模型并存	System Agent + Function Call双模型；小模型完全收编到大模型
计算与延迟优化	ASR完成后并行处理大模型	VAD触发即启动抢跑计算，节省600ms
拒识能力	小模型规则拒识	大模型化拒识（System Agent句级 + Function Call API级）

3.2 架构优势详解

延迟优化：真正的流式响应

优化项	V1架构	V2架构
ASR完成后的计算延迟	需等待ASR完全结束	VAD触发即开始计算
整体响应延迟优化	基准	节省600ms
用户感知延迟	明显等待感知	接近即时响应
部署架构	终端+云端混合	纯云架构，天然平台化优势

模型整合：从多模型到双模型

模型来源	整合前(V1)	整合后(V2)	说明
改写模型(大)	独立模型	System Agent	意图理解与路由
拆解模型(大)	独立模型	System Agent	意图拆解能力
百科(小)	独立小模型	System Agent	大模型泛化
拒识(小)	独立小模型	System Agent	句级拒识
整合1	2大+2小 → System Agent		减少4个模型，统一入口
垂域NLU(小)	独立小模型	Function Call	语义能力提升
FC部分功能	Function Call(大)	System Agent	能力增强
整合2	1大+1小 → System Agent		FC模型专注

多轮对话：上下文深度扩展

能力维度	V1架构	V2架构
历史对话深度	2轮	5轮
多轮改写准确率	--	>92%
TTS回复感知	不支持(2轮)	支持从历史回复继承(5轮)

大模型化拒识：漏拒大幅降低

指标维度	V1架构	V2架构
首轮漏拒率	小于3%	小于3%
聆听态漏拒率	35%	小于3%

小结

MOLA V2通过构建System Agent快思考模型和自研ASR+VAD，实现了从V1的"大小模型混合"到"全面大模型化"的架构演进。System Agent收编改写、拆解、百科、拒识4个模型，Function Call收编小模型NLU实现1000+工具调用。VAD抢跑计算节省600ms延迟，多轮对话深度拓展至5轮（准确率>92%），聆听态漏拒率从35%降至小于3%。纯云架构天然具备平台化优势，为后续版本的多智能体演进奠定了性能基础。

文档版本：v1.0 | 最后更新：2026年2月 | MOLA架构演进系列文档