ARCHITECTURE
MOLA V2 架构详解
一、架构概述
MOLA V2版本(2025.12)在V1的基础上进行了架构重构,实现了小模型的全面收编,从"大小模型混合架构"演进为"双大模型架构"。通过构建System Agent和Function Call两个大模型,实现了能力的深度整合;结合自研ASR和VAD的流式抢跑技术,整体延迟降低600ms。
核心设计理念:
- 双大模型架构:从V1的"改写→拆解→Function Call"三模型流水线演进为"System Agent + Function Call"双大模型架构,实现小模型能力全面收编
- System Agent:收编改写、拆解、百科、拒识等小模型NLU功能,负责意图理解与路由分发
- 大模型化拒识:System Agent拦截不通顺语句,Function Call拒绝不支持的API调用
- Function Call:完全收编垂域NLU,支持1000+工具调用
- 自研ASR+VAD流式抢跑:ASR完成后同时启动System Agent和Function Call模型,并行计算降低延迟
二、系统架构图
2.1 完整架构流程
flowchart TB
subgraph V2_Arch["MOLA V2 完整架构 (2025.12)"]
User[用户语音输入] --> ASR["自研ASR+VAD"]
ASR -->|启动并行计算| Parallel
subgraph Parallel["并行计算层"]
SysAgent["① System Agent 意图理解与路由"]
FuncCall["② Function Call 1000+工具调用"]
SysAgent -.->|改写/多意图| FuncCall
end
FuncCall --> AIEE["AIEE业务引擎"]
AIEE --> TTS["TTS语音合成"]
TTS --> Audio[语音输出]
end
2.2 延迟优化
延迟优化明细
| 优化项 | V1耗时 | V2耗时 | 节省 | 说明 |
|---|---|---|---|---|
| 自研ASR+VAD | 800ms | 400-600ms | 200ms | 替代第三方ASR+VAD |
| 模型并行 | (小模型) | 300ms(System+FC并行) | 100ms | System Agent与Function Call并行 |
| VAD抢跑计算 | 等待ASR完成 | VAD计算时启动 | 300ms | 利用VAD计算时间并行推理 |
| 导航Warmup提前 | -- | VAD期间提前Warmup | 600ms | 提前热身地图/鉴权/三方服务 |
优化说明
- 导航Warmup:VAD计算期间识别到导航意图,提前下发warmup请求,拉齐地图初始化、鉴权、三方服务预热
三、架构优势与创新点(对比V1)
MOLA V2架构相较V1版本,通过构建System Agent快思考模型和自研ASR+VAD,实现了架构的深度优化和响应速度的显著提升。
3.1 对比概览:从并行处理到抢跑计算
| 对比维度 | V1架构 | V2架构 |
|---|---|---|
| ASR方案 | 第三方ASR | 自研ASR + VAD |
| 大模型化 | 改写、拆解、Function Call三模型流水线;百科、拒识、垂域NLU小模型并存 | System Agent + Function Call双模型;小模型完全收编到大模型 |
| 计算与延迟优化 | ASR完成后并行处理大模型 | VAD触发即启动抢跑计算,节省600ms |
| 拒识能力 | 小模型规则拒识 | 大模型化拒识(System Agent句级 + Function Call API级) |
3.2 架构优势详解
延迟优化:真正的流式响应
| 优化项 | V1架构 | V2架构 |
|---|---|---|
| ASR完成后的计算延迟 | 需等待ASR完全结束 | VAD触发即开始计算 |
| 整体响应延迟优化 | 基准 | 节省600ms |
| 用户感知延迟 | 明显等待感知 | 接近即时响应 |
| 部署架构 | 终端+云端混合 | 纯云架构,天然平台化优势 |
模型整合:从多模型到双模型
| 模型来源 | 整合前(V1) | 整合后(V2) | 说明 |
|---|---|---|---|
| 改写模型(大) | 独立模型 | System Agent | 意图理解与路由 |
| 拆解模型(大) | 独立模型 | System Agent | 意图拆解能力 |
| 百科(小) | 独立小模型 | System Agent | 大模型泛化 |
| 拒识(小) | 独立小模型 | System Agent | 句级拒识 |
| 整合1 | 2大+2小 → System Agent | 减少4个模型,统一入口 | |
| 垂域NLU(小) | 独立小模型 | Function Call | 语义能力提升 |
| FC部分功能 | Function Call(大) | System Agent | 能力增强 |
| 整合2 | 1大+1小 → System Agent | FC模型专注 | |
多轮对话:上下文深度扩展
| 能力维度 | V1架构 | V2架构 |
|---|---|---|
| 历史对话深度 | 2轮 | 5轮 |
| 多轮改写准确率 | -- | >92% |
| TTS回复感知 | 不支持(2轮) | 支持从历史回复继承(5轮) |
大模型化拒识:漏拒大幅降低
| 指标维度 | V1架构 | V2架构 |
|---|---|---|
| 首轮漏拒率 | 小于3% | 小于3% |
| 聆听态漏拒率 | 35% | 小于3% |
小结
MOLA V2通过构建System Agent快思考模型和自研ASR+VAD,实现了从V1的"大小模型混合"到"全面大模型化"的架构演进。System Agent收编改写、拆解、百科、拒识4个模型,Function Call收编小模型NLU实现1000+工具调用。VAD抢跑计算节省600ms延迟,多轮对话深度拓展至5轮(准确率>92%),聆听态漏拒率从35%降至小于3%。纯云架构天然具备平台化优势,为后续版本的多智能体演进奠定了性能基础。