PROPOSAL

资源与工作陈述

一、项目定位

组建一支10人精英团队，以 Vibe Coding（AI Agent + 最强大模型协同开发）为核心工作方式，从零构建一套完整的语音交互系统。覆盖全链路开发、模型部署、数据闭环，不依赖外部交付团队，所有环节由团队自主完成。

"从零"的定义：不意味着自研底座模型，而是基于开源/可用模型（如 Qwen3-ASR、Qwen3.5-35B-A3B 等），完成从工程集成到部署运维的全栈工作。

二、为什么要做这件事

效率跃升

精英团队

4-6

月交付全链路

20-25

传统模式需人数

1. 6倍效率跃升 — Agent + 最强模型（Opus 4.7 / GPT 5.5 / Mythos）下，单工程师产出可达传统6倍以上。

2. 现状对比触目 — 导航Agent项目：6-10人核心团队、5个月（25.12→26.4），仅完成约1/2云端Agent化，端侧和闭环链路未涉及。按传统模式，全量完成需补充端侧(3-4人)、测试(3-4人)、部署(2-3人)、项目协调(1-2人)、数据标注(2-3人)，合计约20-25人、12-18个月。6倍提效下等效3-4人，覆盖全栈领域需10人 → 10人精英团队4-6月交付全链路。

3. 闭环自动化 — 标注、测试、日志分析等传统人力密集环节可由Agent自动化，这是传统团队做不到的。

4. 海外驻场是备选方案 — 核心目标是使用最前沿的Coding Agent + 最强模型（优选Claude Code + Opus 4.7 / Mythos，次选OpenAI Codex + GPT 5.4 / 5.5），而非以海外办公为目的。优先尝试国内可用方案（VM隔离区访问GPT 5.5、OpenCode + GPT 5.4/5.5等），仅当国内无法使用GPT 5.5 / Opus 4.7时，才考虑海外驻场。若需海外驻场，Anthropic禁止中国大陆及香港使用Claude，仅日本/新加坡可用，且不只是Coding Agent需要访问，全套系统（GPU集群、仿真台架、模型服务、数据管线等）都需可达，海外驻点需具备完整的配套基础设施。

三、系统范围与架构

3.1 边界

做：语音交互全链路（ASR → Agent规划 → 垂域执行 → 播报生成 → TTS），以及工程基础设施（部署、日志、标注、测试等）。

不做：底层业务依赖（导航、车控、多媒体等）属于大座舱范畴，另行评估。本项目通过垂域Agent接口对接，不涉及业务内部实现。

3.2 目标架构

两套候选架构，优选方案A：

方案A（优选）：多Agent分立

用户语音 → ASR(Qwen3-ASR) → SA Agent(React规划+播报生成) → 垂域Agent(工具感知+执行) → TTS(现有) → 语音输出
                                            ↕                        ↕
                                     车控Agent / 导航Agent / 媒体Agent / 百科Agent ...

ASR、SA Agent、TTS 各自独立模型/服务
SA Agent 负责多轮对话的 React 规划（A2A）和最终播报文本生成
垂域 Agent 也是 React Agent，负责具体领域的工具感知与执行
TTS 复用现有方案

方案B：ASR+SA融合为统一模型

用户语音 → Qwen3-Omni(ASR+SA融合) → 垂域Agent(工具感知+执行) → TTS(现有) → 语音输出
                                            ↕
                                     车控Agent / 导航Agent / 媒体Agent / 百科Agent ...

ASR 与 SA Agent 合并为 Qwen3-Omni 统一模型，语音直接输入，减少级联延迟
垂域 Agent 不变
依赖 Qwen3-Omni 的能力成熟度，存在不确定性

3.3 各模块说明

模块	职责	方案A	方案B
ASR	语音→文本	Qwen3-ASR	融合入Qwen3-Omni
SA Agent	React规划(A2A)、多轮对话管理、播报文本生成	Qwen3.5-35B-A3B / 微调	融合入Qwen3-Omni
垂域Agent	React Agent，负责具体领域的工具感知与执行	各垂域独立Agent（车控/导航/媒体/百科等）	同左
TTS	文本→语音	现有TTS	同左
全双工	打断、协商、轮流发言	暂不动，后续迭代	同左

3.4 工程基础设施（同等重要）

模块	职责
服务框架	微服务编排、API Gateway、负载均衡
模型部署	推理服务（vLLM/SGLang）、模型管理、弹性扩缩
日志与追踪	全链路日志采集、分布式追踪（OpenTelemetry）、会话回放
数据分析	对话质量分析、badcase 归因、指标看板
数据标注	LLM辅助标注 + 人工校验流程
训练数据生成	基于真实对话的合成数据管线
测试体系	自动化测试集构建、回归测试、指标评测（WER、SER、延迟等）
CI/CD	代码质量、自动部署、灰度发布

3.5 全链路研发流程

3.5.1 算法开发流程

flowchart TB
    DataPlatform["数据平台
回流日志/测试集管理"] --> DataLabel["数据标注
LLM辅助+人工校验"]
    DataLabel --> DataDashboard["数据看板
版本指标交叉对比"]
    DataLabel -->|训练数据| AlgoDev["算法开发"]
    DataDashboard -->|系统指标+仿真结果| AlgoDev
    AlgoDev <-->|沙盒环境| SimPlatform["仿真平台"]
    AlgoDev --> SAAgent["SA Agent
SFT/RLHF/GRPO"]
    AlgoDev --> DomainAgent["垂域Agent
SFT/RLHF/GRPO"]
    SAAgent -->|注册模型| ModelMgmt["模型管理
底座/自有模型版本管理
模型元数据与溯源"]
    DomainAgent -->|注册模型| ModelMgmt

    classDef dataStyle fill:#E1F5FE,stroke:#0288D1,stroke-width:2px
    classDef algoStyle fill:#FFF3E0,stroke:#FF9800,stroke-width:2px
    classDef modelStyle fill:#E8F5E9,stroke:#388E3C,stroke-width:2px
    classDef simStyle fill:#F3E5F5,stroke:#7B1FA2,stroke-width:2px

    class DataPlatform,DataLabel,DataDashboard dataStyle
    class AlgoDev,SAAgent,DomainAgent algoStyle
    class ModelMgmt modelStyle
    class SimPlatform simStyle

流程说明：

数据平台提供回流日志，经数据标注产出训练数据

算法开发基于训练数据，依托仿真平台沙盒进行训练和评测

训练产出的自有模型注册到模型管理，评测指标与仿真结果汇入数据看板

3.5.2 工程开发流程

flowchart TB
    ModelMgmt2["模型管理
底座/自有模型版本管理"] -->|指定版本模型| InferenceEngine["模型推理引擎
vLLM / SGLang
多版本模型部署"]
    InferenceEngine -->|推理API| InferenceService["模型推理服务
SA Agent推理
垂域Agent推理
ASR推理"]
    InferenceEngine -->|推理API| CloudService["云端服务开发
Agent Harness
Tools执行引擎
上下文/状态/任务管理"]
    InferenceEngine -->|推理API| EdgeDev["端侧程序开发
语音APK
状态感知
VAD/ASR"]
    InferenceService --> InfraDeploy["推理服务部署"]
    CloudService --> CloudDeploy["云服务部署"]
    CloudDeploy -->|调用| InfraDeploy
    EdgeDev --> ROM["车端ROM/APK管理"]
    ROM -->|调用云端服务| CloudDeploy
    CloudDeploy -->|回流日志| DataPlatform2["数据平台"]
    ROM -->|回流日志| DataPlatform2

    classDef modelStyle fill:#E8F5E9,stroke:#388E3C,stroke-width:2px
    classDef infraStyle fill:#E1F5FE,stroke:#0288D1,stroke-width:2px
    classDef devStyle fill:#FFF3E0,stroke:#FF9800,stroke-width:2px
    classDef edgeStyle fill:#F3E5F5,stroke:#7B1FA2,stroke-width:2px
    classDef dataStyle fill:#FFCCBC,stroke:#D84315,stroke-width:2px

    class ModelMgmt2 modelStyle
    class InferenceEngine,InferenceService,InfraDeploy infraStyle
    class CloudService,CloudDeploy devStyle
    class EdgeDev,ROM edgeStyle
    class DataPlatform2 dataStyle

流程说明：

模型管理 → 模型推理引擎，部署推理服务，提供推理API

三条线并列：模型推理服务、云端服务开发、端侧程序开发

推理API和云端服务API并列，共同支撑上层系统

车端ROM/APK调用云端服务；云端服务和车端APK分别回传日志给数据平台

3.5.3 整体协作总览

flowchart TB
    DP["数据平台"] --> DL["数据标注"]
    DL --> DD["数据看板"]
    SP["仿真平台"]

    DP -->|回流日志| Algo["算法开发"]
    Algo <-->|沙盒环境| SP
    Algo -->|注册模型| MM["模型管理"]

    MM --> CloudLayer["云端服务层"]
    CloudLayer --> InferenceAPI["推理服务
推理API"]
    CloudLayer --> ServiceAPI["云端服务
服务API"]
    ServiceAPI -->|调用| InferenceAPI

    EdgeDev2["端侧程序开发
语音APK/状态感知/VAD/ASR"]
    EdgeDev2 --> ROM2["车端ROM/APK管理"]
    ROM2 -->|调用云端服务| ServiceAPI
    ROM2 -->|回传日志| DP
    ServiceAPI -->|回流日志| DP

    classDef dataStyle fill:#E1F5FE,stroke:#0288D1,stroke-width:2px
    classDef algoStyle fill:#FFF3E0,stroke:#FF9800,stroke-width:2px
    classDef modelStyle fill:#E8F5E9,stroke:#388E3C,stroke-width:2px
    classDef cloudStyle fill:#F3E5F5,stroke:#7B1FA2,stroke-width:2px
    classDef edgeStyle fill:#FFCCBC,stroke:#D84315,stroke-width:2px

    class DP,DL,DD dataStyle
    class Algo,SP algoStyle
    class MM modelStyle
    class CloudLayer,InferenceAPI,ServiceAPI cloudStyle
    class EdgeDev2,ROM2 edgeStyle

各模块说明

1. 数据平台

数据回流、问题定位、测试集管理、Prompts 和 Tools 管理的统一入口。对外提供三套访问方式：

访问方式	面向用户	说明
WEB	人工查看	可视化界面，人看
CLI	脚本/工具	命令行接口
MCP	Coding Agent	Agent 直接调用

2. 仿真平台

全套沙盒环境，包含 System Agent 和垂域 Agent。Tools 与线上服务系统共享，确保仿真与生产一致。对外提供三套访问方式：

访问方式	面向用户	说明
WEB	人工查看/操作	可视化界面，人看/用
CLI	脚本/工具	命令行接口
MCP	Coding Agent	Agent 直接调用

3. 数据标注

从数据平台获取回流日志，利用 LLM 进行各项指标/真值的标注。标注结果同步到数据看板，支持版本区分：

数据版本
系统版本
模型版本

交叉指标（如某数据版本 x 某模型版本的 WER/SER）可在数据看板中查看。

4. 数据看板

提供各个版本对应的指标，包括数据版本、系统版本、模型版本的交叉对比。支持回溯任意版本组合的评测结果。

5. 算法开发

负责所有模型训练与算法实验，产出训练后的自有模型：

方向	内容
SA Agent	System Agent 模型训练（SFT / RLHF / GRPO），负责多轮对话规划与播报生成
垂域 Agent	各垂域 Agent 模型训练（SFT / RLHF / GRPO），负责工具感知与执行
评测与实验管理	评测指标计算、实验版本管理、训练配置追踪

训练产出的自有模型（如 SA-Agent-v0.3、NavAgent-v1.0）注册到模型管理模块，进入可部署状态。

5b. 工程开发

负责系统工程的开发与集成，包含云端服务和端侧程序，与推理服务并列共同构成系统服务层：

方向	内容
云端服务开发	Agent Harness 服务、Tools 执行引擎、上下文管理引擎、状态管理引擎、任务管理引擎
端侧程序开发	语音相关 APK、车端状态感知/收集引擎、VAD/ASR 引擎

6. 模型管理

统一管理从底座模型到后训练自有模型的全生命周期：

层级	说明	示例
底座模型	开源基座模型，作为训练起点	Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3-ASR
后训练自有模型	基于底座模型经 SFT/RLHF/GRPO 等训练产出，按迭代版本管理	SA-Agent-v0.3、NavAgent-v1.0
模型元数据	每个模型版本关联训练数据版本、训练配置、评测指标、底座溯源	—

核心能力：

版本溯源：任意自有模型可追溯到底座模型版本、训练数据版本、训练配置
分级存储：底座模型长期保留，自有模型按迭代策略管理（保留最近 N 版 + 标记版）
模型注册：训练完成自动注册到模型仓库，关联元数据，进入可部署状态

7. 模型推理引擎（云端）

依托 vLLM / SGLang 等推理框架，从模型管理模块获取指定版本模型并部署为推理服务：

能力	说明
模型部署	从模型管理模块拉取指定版本模型，基于 vLLM / SGLang 启动推理服务
多版本共存	同一模型的不同版本可同时部署（如 A/B 测试、灰度验证）
服务发现	每个推理服务注册到服务发现，云端服务（Agent Harness 等）按需调用
弹性扩缩	根据请求负载动态调整推理实例数，GPU 资源由机器资源管理模块分配
性能监控	推理延迟、吞吐量、GPU 利用率等指标采集，对接日志与追踪模块

服务调用链路：

车端APK → 云端服务(Agent Harness) → 服务发现 → 模型推理引擎(vLLM/SGLang) → 模型管理(取模型)

8. 机器资源管理

统一管理项目所需的计算和硬件资源：

资源类型	用途
GPU	模型训练、模型推理
CPU	云端服务部署
开发机	日常开发
仿真台架	端侧验证

9. 云服务与车端管理

方向	内容
云端服务部署	各 Agent 服务、Tools 执行引擎等云端组件的部署与运维
推理服务部署	模型推理引擎的部署与运维，提供推理API
车端 APK 管理	语音 APK 安装、ROM 版本管理

车端APK通过调用云端服务与云端交互，云端服务和车端APK分别将回流日志上传至数据平台。

四、团队配置（10人精英团队）

角色	人数	职责
项目统筹	1	项目管理、跨团队协调、进度把控
全栈工程师	6	前后端开发、Agent协同编码、系统集成、模型选型/部署/微调、推理优化、数据管线
测试与数据工程师	2	测试体系建设、数据标注流程、质量分析
DevOps	1	基础设施、CI/CD、监控告警

关键要求：所有成员需具备熟练使用 Coding Agent 的能力，拥抱 Vibe Coding 工作方式。

候选人

华为自有（10人）

姓名	部门	可用时间	当前状态	Vibe Coding	协作模式	备注
朱麒宇	AI开发部	已全职投入	全职投入	Claude Code	个人项目	—
王津男	AI开发部	已参与	已参与，做过deep research测试集、沙盒、SA模型	Claude Code	多人共建单个项目	最先投入
孙洋	AI开发部	已全职投入	全职投入	Claude Code	个人项目	—
温琦琛	应用开发部	已参与	全职参与	待定	待定	—
智文卓	智能座舱集成与验证部	已参与	全职参与	待定	待定	—
李滨航	技术开发部	已参与	已参与	Claude Code	个人项目	—
待定1	—	—	—	—	—	—
待定2	—	—	—	—	—	—
待定3	—	—	—	—	—	—
待定4	—	—	—	—	—	—

协作模式说明：

个人项目：独立负责某个子项目/模块，单人+Agent完成
多人共建单个项目：多人+Agent协作同一项目，需代码协调机制

当前状态：6人已确认 + 4人待定。已参与4人（王津男、温琦琛、智文卓、李滨航），2人已全职投入（朱麒宇、孙洋）。

五、所需资源

5.1 Coding Agent（不限Token）

优先级	方案	模型	说明
优选	Claude Code	Opus 4.7 / Mythos	需海外访问，当前最强Coding Agent
次选	OpenAI Codex	GPT 5.5 Max	香港可用性待确认，需全套OpenAI生态
次次选	OpenCode	GPT 5.5 Max	开源Coding Agent框架，国内可部署，模型能力依赖OpenAI

5.2 底座模型（语音系统的）

模型	用途	备注
Qwen3-ASR	语音识别	开源
Qwen3-Omni	ASR+SA融合方案（方案B）	开源，成熟度待验证
Qwen3.5-35B	SA Agent / 垂域Agent 轻量部署	开源，MoE高效推理
Qwen3.5-122B	SA Agent 全量部署	开源
Qwen3.5-397B	SA Agent 最高能力	开源，需较多GPU
Qwen3-TTS	语音合成	开源

5.3 计算资源

推荐 NVIDIA GPU，以下为GPU卡数（非服务器台数）：

资源	规格	用途	GPU卡数
GPU-训练	NVIDIA GPU（H200/H800等），推荐8卡/台	模型训练 / 数据标注 / 测试校验	X卡
GPU-推理	NVIDIA GPU（H200/H800等），推荐8卡/台	模型推理、端到端压测	X卡
CPU服务器	—	服务部署、CI/CD、中间件	2台

5.4 其他硬件

资源	数量	用途
开发机	10台	日常开发、Agent协同编码
台架	2台	系统集成测试、端侧验证
实车	1台（有条件）	实车场景验证

5.5 海外出差（备选方案）

仅当国内无法使用 GPT 5.5 / Opus 4.7 时，团队需集中赴海外（日本/新加坡）出差以使用最强 Coding Agent。Anthropic 禁止中国大陆及香港使用 Claude，仅日本/新加坡可用。建议集中出差，减少轮换带来的协作损耗。

5.6 网络分区现状

安全限制等级：蓝区（开放区） < 绿区 < 黄区。

模块/资源	蓝区	绿区	黄区	说明
Coding Agent	Cursor + GPT 5.5（IT装备部）	—	—	Claude Code 需海外访问，国内不可用
云端微服务	—	可开发 & 部署	—
端侧微服务	—	—	现有	可迁移至绿区，难度小
GPU（N卡）	—	—	现有	有可能迁移至绿区，待验证
数据闭环（回流/标注）	—	可运行	—	数据可在绿区回流获取
数据看板	—	现有	—
私有化模型	—	—	GLM-5.1、Qwen3-xx	黄区可评测
模型推理服务	—	依赖GPU迁移	依赖GPU	GPU迁移至绿区后可部署

六、项目进展

6.1 已完成事项

日期	事项	说明
2026-04-23	需求讨论会	与领导及相关负责人讨论项目需求，确认方向。参会：邓杰锋、冯青青、翁武林、苗磊、赵群
2026-04-24	确定绿区打通方案	暂定在绿区打通链路，避免海外出差的复杂性。参会：缪大俊、陈剑、陈慧娟、赵群
2026-04-25	绿区GPU搬迁可行性	绿区可尝试搬迁现有的少量N卡做尝试，涉及人：林铿
2026-04-28	VM隔离区方案讨论	在绿区/黄区尝试VM隔离区可控访问GPT 5.5接口。参会：缪大俊、陈剑、陈慧娟、赵群、林铿、肖春源

6.2 进行中事项

事项	负责方	说明
购买 OpenCode + GPT 5.4/5.5	IT装备部	尝试采购，作为Claude Code的国内替代方案
GPU搬迁至绿区	AI开发部（林铿）	将现有少量N卡搬迁至绿区做尝试，验证可行性
VM隔离区方案可行性确认	陈剑	在绿区/黄区做VM隔离区，可控访问GPT 5.5接口
VM隔离区双向数据细节补充	赵群	隔离区需与同区未隔离区双向交互数据，补充细节
信息安全特殊审批路线沟通	缪大俊	与信息安全沟通是否有方案可走特殊审批路线

6.3 里程碑规划

（待补充）

七、风险与应对

（待补充）

八、成功标准

（待补充）