ARCHITECTURE

MOLA V1 架构详解

一、架构概述

MOLA V1版本(2025.09)采用"大小模型混合架构",在资源约束下实现了基础的语音对话能力。该架构通过合理分工大小模型,平衡了响应速度、理解深度和计算资源消耗。

核心设计理念

二、系统架构图

flowchart TB
    subgraph V1_Arch["MOLA V1 完整架构 (2025.09)"]
        User[用户语音输入]

        subgraph ASR["三方ASR模块"]
            ThirdASR["第三方ASR服务"]
        end

        subgraph Parallel_Processing["并行处理层"]
            subgraph SmallNLU["小模型NLU模块"]
                Dist["百科分发"]
                Rejection["拒识模块"]
                VerticalNLU["垂域NLU (部分场景)"]
            end

            subgraph LLM_Stack["大模型处理流程 (Qwen2.5-7B x 3)"]
                Rewriter["① 改写模型 Query Rewriter 支持2轮对话改写"]
                IntentSplitter["② 多意图拆解模型 并行意图识别与拆解"]
                FunctionCaller["③ Function Call模型 口语化指令解析 支持部分功能"]
            end
        end

        RuleFusion[规则融合模块 综合小模型和大模型结果]

        subgraph Template["模板层"]
            ResponseTmpl["TTS播报模板 固定文本模板"]
        end

        subgraph TTS["TTS模块"]
            TTS_Engine[TTS语音合成]
        end

        Response[系统响应]
        AudioOutput[语音输出]

        User --> ThirdASR
        ThirdASR --> Parallel_Processing
        Rewriter --> IntentSplitter
        IntentSplitter --> FunctionCaller
        Dist --> RuleFusion
        Rejection --> RuleFusion
        VerticalNLU --> RuleFusion
        FunctionCaller --> RuleFusion
        RuleFusion --> Response
        Response --> ResponseTmpl
        ResponseTmpl --> TTS_Engine
        TTS_Engine --> AudioOutput
    end

大模型处理流程说明

ASR文本输出
    ↓
① 改写模型 (Query Rewriter)
    ├─ 基于2轮对话历史进行改写
    └─ 输出: 改写后的标准化Query
    ↓
② 多意图拆解模型
    ├─ 识别并拆解单句中的多个并行意图
    └─ 输出: 拆解后的独立意图列表
    ↓
③ Function Call模型
    ├─ 将意图映射为具体函数调用
    └─ 输出: Function Call结果(只有此结果进入规则融合)

三、架构优势与创新点(对比之前架构)

MOLA V1架构相较之前的语音助手系统架构,引入了三大核心模型,实现了对话能力的质的飞跃。以下优势使系统在多轮对话连续性、多意图识别、口语化理解等方面显著提升。

3.1 对比概览:从规则驱动到大模型驱动

MOLA V1的核心转变在于从"规则驱动"向"大模型驱动"的范式升级。传统NLU架构依赖大量训练数据和人工规则配置,而MOLA V1通过大模型底座的泛化能力,大幅降低了数据门槛和配置复杂度。

对比维度之前架构(传统NLU)MOLA V1架构
意图识别依赖海量训练数据(百万级别)构建模型基于大模型底座,仅需少量样本(1万以内)即可适配
多轮对话需逐场景配置DM规则依托大模型语义理解,无需规则即可处理上下文省略
口语化理解要求用户严格按既定槽位表达,容错率低理解自然口语,无明确槽位也能推理意图
扩展性新增意图需重新训练NLU模型,迭代周期长大模型天然泛化,新增场景无需全量重训

3.2 架构带来的体验变化

多轮对话:更自然的连续交互(改写模型)

对话场景之前架构V1架构
"导航去机场T3" → "去T2"❌ 无法理解上下文✅ 改写为"导航去机场T2"
"查周杰伦的专辑" → "林俊杰呢?"❌ 意图识别失效✅ 改写为"查林俊杰的专辑"

多意图拆解:单句支持大规模并行任务(多意图拆解模型)

用户输入拆解结果执行效果
"打开天窗空调座椅加热,关上车窗遮阳帘,导航去机场,播放周杰伦的歌"[打开天窗, 打开空调, 座椅加热, 关车窗, 关遮阳帘, 导航-机场, 播放音乐]✅ 8项操作同时执行
"打开所有车控设备,再把音量调大,告诉我股市行情"[打开天窗, 打开车窗, 打开空调, 音量调大, 查询股市]✅ 5项操作并行处理

口语化车控:理解自然表达(Function Call模型)

用户口语化表达之前架构V1架构说明
"打开车耳朵"❌ 不理解✅ 打开后视镜理解"车耳朵"=后视镜
"打开头顶的灯"❌ 不理解✅ 打开阅读灯理解"头顶的灯"=阅读灯
"把座椅调舒服点"❌ 不理解✅ 调节至舒适模式理解模糊舒适度

小结

MOLA V1通过大小模型混合架构,在有限资源下实现了对话能力的显著提升。从规则驱动到大模型驱动,降低了数据门槛和配置复杂度,为后续版本的多智能体演进奠定了基础。

文档版本:v1.1  |  最后更新:2026年2月  |  MOLA架构演进系列文档