资源与工作陈述
一、项目定位
组建一支10人精英团队,以 Vibe Coding(AI Agent + 最强大模型协同开发)为核心工作方式,从零构建一套完整的语音交互系统。覆盖全链路开发、模型部署、数据闭环,不依赖外部交付团队,所有环节由团队自主完成。
"从零"的定义:不意味着自研底座模型,而是基于开源/可用模型(如 Qwen3-ASR、Qwen3.5-35B-A3B 等),完成从工程集成到部署运维的全栈工作。
二、为什么要做这件事
1. 6倍效率跃升 — Agent + 最强模型(Opus 4.7 / GPT 5.5 / Mythos)下,单工程师产出可达传统6倍以上。
2. 现状对比触目 — 导航Agent项目:6-10人核心团队、5个月(25.12→26.4),仅完成约1/2云端Agent化,端侧和闭环链路未涉及。按传统模式,全量完成需补充端侧(3-4人)、测试(3-4人)、部署(2-3人)、项目协调(1-2人)、数据标注(2-3人),合计约20-25人、12-18个月。6倍提效下等效3-4人,覆盖全栈领域需10人 → 10人精英团队4-6月交付全链路。
3. 闭环自动化 — 标注、测试、日志分析等传统人力密集环节可由Agent自动化,这是传统团队做不到的。
4. 海外驻场是备选方案 — 核心目标是使用最前沿的Coding Agent + 最强模型(优选Claude Code + Opus 4.7 / Mythos,次选OpenAI Codex + GPT 5.4 / 5.5),而非以海外办公为目的。优先尝试国内可用方案(VM隔离区访问GPT 5.5、OpenCode + GPT 5.4/5.5等),仅当国内无法使用GPT 5.5 / Opus 4.7时,才考虑海外驻场。若需海外驻场,Anthropic禁止中国大陆及香港使用Claude,仅日本/新加坡可用,且不只是Coding Agent需要访问,全套系统(GPU集群、仿真台架、模型服务、数据管线等)都需可达,海外驻点需具备完整的配套基础设施。
三、系统范围与架构
3.1 边界
做:语音交互全链路(ASR → Agent规划 → 垂域执行 → 播报生成 → TTS),以及工程基础设施(部署、日志、标注、测试等)。
不做:底层业务依赖(导航、车控、多媒体等)属于大座舱范畴,另行评估。本项目通过垂域Agent接口对接,不涉及业务内部实现。
3.2 目标架构
两套候选架构,优选方案A:
方案A(优选):多Agent分立
用户语音 → ASR(Qwen3-ASR) → SA Agent(React规划+播报生成) → 垂域Agent(工具感知+执行) → TTS(现有) → 语音输出
↕ ↕
车控Agent / 导航Agent / 媒体Agent / 百科Agent ...
- ASR、SA Agent、TTS 各自独立模型/服务
- SA Agent 负责多轮对话的 React 规划(A2A)和最终播报文本生成
- 垂域 Agent 也是 React Agent,负责具体领域的工具感知与执行
- TTS 复用现有方案
方案B:ASR+SA融合为统一模型
用户语音 → Qwen3-Omni(ASR+SA融合) → 垂域Agent(工具感知+执行) → TTS(现有) → 语音输出
↕
车控Agent / 导航Agent / 媒体Agent / 百科Agent ...
- ASR 与 SA Agent 合并为 Qwen3-Omni 统一模型,语音直接输入,减少级联延迟
- 垂域 Agent 不变
- 依赖 Qwen3-Omni 的能力成熟度,存在不确定性
3.3 各模块说明
| 模块 | 职责 | 方案A | 方案B |
|---|---|---|---|
| ASR | 语音→文本 | Qwen3-ASR | 融合入Qwen3-Omni |
| SA Agent | React规划(A2A)、多轮对话管理、播报文本生成 | Qwen3.5-35B-A3B / 微调 | 融合入Qwen3-Omni |
| 垂域Agent | React Agent,负责具体领域的工具感知与执行 | 各垂域独立Agent(车控/导航/媒体/百科等) | 同左 |
| TTS | 文本→语音 | 现有TTS | 同左 |
| 全双工 | 打断、协商、轮流发言 | 暂不动,后续迭代 | 同左 |
3.4 工程基础设施(同等重要)
| 模块 | 职责 |
|---|---|
| 服务框架 | 微服务编排、API Gateway、负载均衡 |
| 模型部署 | 推理服务(vLLM/SGLang)、模型管理、弹性扩缩 |
| 日志与追踪 | 全链路日志采集、分布式追踪(OpenTelemetry)、会话回放 |
| 数据分析 | 对话质量分析、badcase 归因、指标看板 |
| 数据标注 | LLM辅助标注 + 人工校验流程 |
| 训练数据生成 | 基于真实对话的合成数据管线 |
| 测试体系 | 自动化测试集构建、回归测试、指标评测(WER、SER、延迟等) |
| CI/CD | 代码质量、自动部署、灰度发布 |
3.5 全链路研发流程
3.5.1 算法开发流程
flowchart TB
DataPlatform["数据平台
回流日志/测试集管理"] --> DataLabel["数据标注
LLM辅助+人工校验"]
DataLabel --> DataDashboard["数据看板
版本指标交叉对比"]
DataLabel -->|训练数据| AlgoDev["算法开发"]
DataDashboard -->|系统指标+仿真结果| AlgoDev
AlgoDev <-->|沙盒环境| SimPlatform["仿真平台"]
AlgoDev --> SAAgent["SA Agent
SFT/RLHF/GRPO"]
AlgoDev --> DomainAgent["垂域Agent
SFT/RLHF/GRPO"]
SAAgent -->|注册模型| ModelMgmt["模型管理
底座/自有模型版本管理
模型元数据与溯源"]
DomainAgent -->|注册模型| ModelMgmt
classDef dataStyle fill:#E1F5FE,stroke:#0288D1,stroke-width:2px
classDef algoStyle fill:#FFF3E0,stroke:#FF9800,stroke-width:2px
classDef modelStyle fill:#E8F5E9,stroke:#388E3C,stroke-width:2px
classDef simStyle fill:#F3E5F5,stroke:#7B1FA2,stroke-width:2px
class DataPlatform,DataLabel,DataDashboard dataStyle
class AlgoDev,SAAgent,DomainAgent algoStyle
class ModelMgmt modelStyle
class SimPlatform simStyle
流程说明:
- 数据平台提供回流日志,经数据标注产出训练数据
- 算法开发基于训练数据,依托仿真平台沙盒进行训练和评测
- 训练产出的自有模型注册到模型管理,评测指标与仿真结果汇入数据看板
3.5.2 工程开发流程
flowchart TB
ModelMgmt2["模型管理
底座/自有模型版本管理"] -->|指定版本模型| InferenceEngine["模型推理引擎
vLLM / SGLang
多版本模型部署"]
InferenceEngine -->|推理API| InferenceService["模型推理服务
SA Agent推理
垂域Agent推理
ASR推理"]
InferenceEngine -->|推理API| CloudService["云端服务开发
Agent Harness
Tools执行引擎
上下文/状态/任务管理"]
InferenceEngine -->|推理API| EdgeDev["端侧程序开发
语音APK
状态感知
VAD/ASR"]
InferenceService --> InfraDeploy["推理服务部署"]
CloudService --> CloudDeploy["云服务部署"]
CloudDeploy -->|调用| InfraDeploy
EdgeDev --> ROM["车端ROM/APK管理"]
ROM -->|调用云端服务| CloudDeploy
CloudDeploy -->|回流日志| DataPlatform2["数据平台"]
ROM -->|回流日志| DataPlatform2
classDef modelStyle fill:#E8F5E9,stroke:#388E3C,stroke-width:2px
classDef infraStyle fill:#E1F5FE,stroke:#0288D1,stroke-width:2px
classDef devStyle fill:#FFF3E0,stroke:#FF9800,stroke-width:2px
classDef edgeStyle fill:#F3E5F5,stroke:#7B1FA2,stroke-width:2px
classDef dataStyle fill:#FFCCBC,stroke:#D84315,stroke-width:2px
class ModelMgmt2 modelStyle
class InferenceEngine,InferenceService,InfraDeploy infraStyle
class CloudService,CloudDeploy devStyle
class EdgeDev,ROM edgeStyle
class DataPlatform2 dataStyle
流程说明:
- 模型管理 → 模型推理引擎,部署推理服务,提供推理API
- 三条线并列:模型推理服务、云端服务开发、端侧程序开发
- 推理API和云端服务API并列,共同支撑上层系统
- 车端ROM/APK调用云端服务;云端服务和车端APK分别回传日志给数据平台
3.5.3 整体协作总览
flowchart TB
DP["数据平台"] --> DL["数据标注"]
DL --> DD["数据看板"]
SP["仿真平台"]
DP -->|回流日志| Algo["算法开发"]
Algo <-->|沙盒环境| SP
Algo -->|注册模型| MM["模型管理"]
MM --> CloudLayer["云端服务层"]
CloudLayer --> InferenceAPI["推理服务
推理API"]
CloudLayer --> ServiceAPI["云端服务
服务API"]
ServiceAPI -->|调用| InferenceAPI
EdgeDev2["端侧程序开发
语音APK/状态感知/VAD/ASR"]
EdgeDev2 --> ROM2["车端ROM/APK管理"]
ROM2 -->|调用云端服务| ServiceAPI
ROM2 -->|回传日志| DP
ServiceAPI -->|回流日志| DP
classDef dataStyle fill:#E1F5FE,stroke:#0288D1,stroke-width:2px
classDef algoStyle fill:#FFF3E0,stroke:#FF9800,stroke-width:2px
classDef modelStyle fill:#E8F5E9,stroke:#388E3C,stroke-width:2px
classDef cloudStyle fill:#F3E5F5,stroke:#7B1FA2,stroke-width:2px
classDef edgeStyle fill:#FFCCBC,stroke:#D84315,stroke-width:2px
class DP,DL,DD dataStyle
class Algo,SP algoStyle
class MM modelStyle
class CloudLayer,InferenceAPI,ServiceAPI cloudStyle
class EdgeDev2,ROM2 edgeStyle
各模块说明
1. 数据平台
数据回流、问题定位、测试集管理、Prompts 和 Tools 管理的统一入口。对外提供三套访问方式:
| 访问方式 | 面向用户 | 说明 |
|---|---|---|
| WEB | 人工查看 | 可视化界面,人看 |
| CLI | 脚本/工具 | 命令行接口 |
| MCP | Coding Agent | Agent 直接调用 |
2. 仿真平台
全套沙盒环境,包含 System Agent 和垂域 Agent。Tools 与线上服务系统共享,确保仿真与生产一致。对外提供三套访问方式:
| 访问方式 | 面向用户 | 说明 |
|---|---|---|
| WEB | 人工查看/操作 | 可视化界面,人看/用 |
| CLI | 脚本/工具 | 命令行接口 |
| MCP | Coding Agent | Agent 直接调用 |
3. 数据标注
从数据平台获取回流日志,利用 LLM 进行各项指标/真值的标注。标注结果同步到数据看板,支持版本区分:
- 数据版本
- 系统版本
- 模型版本
交叉指标(如某数据版本 x 某模型版本的 WER/SER)可在数据看板中查看。
4. 数据看板
提供各个版本对应的指标,包括数据版本、系统版本、模型版本的交叉对比。支持回溯任意版本组合的评测结果。
5. 算法开发
负责所有模型训练与算法实验,产出训练后的自有模型:
| 方向 | 内容 |
|---|---|
| SA Agent | System Agent 模型训练(SFT / RLHF / GRPO),负责多轮对话规划与播报生成 |
| 垂域 Agent | 各垂域 Agent 模型训练(SFT / RLHF / GRPO),负责工具感知与执行 |
| 评测与实验管理 | 评测指标计算、实验版本管理、训练配置追踪 |
训练产出的自有模型(如 SA-Agent-v0.3、NavAgent-v1.0)注册到模型管理模块,进入可部署状态。
5b. 工程开发
负责系统工程的开发与集成,包含云端服务和端侧程序,与推理服务并列共同构成系统服务层:
| 方向 | 内容 |
|---|---|
| 云端服务开发 | Agent Harness 服务、Tools 执行引擎、上下文管理引擎、状态管理引擎、任务管理引擎 |
| 端侧程序开发 | 语音相关 APK、车端状态感知/收集引擎、VAD/ASR 引擎 |
6. 模型管理
统一管理从底座模型到后训练自有模型的全生命周期:
| 层级 | 说明 | 示例 |
|---|---|---|
| 底座模型 | 开源基座模型,作为训练起点 | Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3-ASR |
| 后训练自有模型 | 基于底座模型经 SFT/RLHF/GRPO 等训练产出,按迭代版本管理 | SA-Agent-v0.3、NavAgent-v1.0 |
| 模型元数据 | 每个模型版本关联训练数据版本、训练配置、评测指标、底座溯源 | — |
核心能力:
- 版本溯源:任意自有模型可追溯到底座模型版本、训练数据版本、训练配置
- 分级存储:底座模型长期保留,自有模型按迭代策略管理(保留最近 N 版 + 标记版)
- 模型注册:训练完成自动注册到模型仓库,关联元数据,进入可部署状态
7. 模型推理引擎(云端)
依托 vLLM / SGLang 等推理框架,从模型管理模块获取指定版本模型并部署为推理服务:
| 能力 | 说明 |
|---|---|
| 模型部署 | 从模型管理模块拉取指定版本模型,基于 vLLM / SGLang 启动推理服务 |
| 多版本共存 | 同一模型的不同版本可同时部署(如 A/B 测试、灰度验证) |
| 服务发现 | 每个推理服务注册到服务发现,云端服务(Agent Harness 等)按需调用 |
| 弹性扩缩 | 根据请求负载动态调整推理实例数,GPU 资源由机器资源管理模块分配 |
| 性能监控 | 推理延迟、吞吐量、GPU 利用率等指标采集,对接日志与追踪模块 |
服务调用链路:
车端APK → 云端服务(Agent Harness) → 服务发现 → 模型推理引擎(vLLM/SGLang) → 模型管理(取模型)
8. 机器资源管理
统一管理项目所需的计算和硬件资源:
| 资源类型 | 用途 |
|---|---|
| GPU | 模型训练、模型推理 |
| CPU | 云端服务部署 |
| 开发机 | 日常开发 |
| 仿真台架 | 端侧验证 |
9. 云服务与车端管理
| 方向 | 内容 |
|---|---|
| 云端服务部署 | 各 Agent 服务、Tools 执行引擎等云端组件的部署与运维 |
| 推理服务部署 | 模型推理引擎的部署与运维,提供推理API |
| 车端 APK 管理 | 语音 APK 安装、ROM 版本管理 |
车端APK通过调用云端服务与云端交互,云端服务和车端APK分别将回流日志上传至数据平台。
四、团队配置(10人精英团队)
| 角色 | 人数 | 职责 |
|---|---|---|
| 项目统筹 | 1 | 项目管理、跨团队协调、进度把控 |
| 全栈工程师 | 6 | 前后端开发、Agent协同编码、系统集成、模型选型/部署/微调、推理优化、数据管线 |
| 测试与数据工程师 | 2 | 测试体系建设、数据标注流程、质量分析 |
| DevOps | 1 | 基础设施、CI/CD、监控告警 |
关键要求:所有成员需具备熟练使用 Coding Agent 的能力,拥抱 Vibe Coding 工作方式。
候选人
华为自有(10人)
| 姓名 | 部门 | 可用时间 | 当前状态 | Vibe Coding | 协作模式 | 备注 |
|---|---|---|---|---|---|---|
| 朱麒宇 | AI开发部 | 已全职投入 | 全职投入 | Claude Code | 个人项目 | — |
| 王津男 | AI开发部 | 已参与 | 已参与,做过deep research测试集、沙盒、SA模型 | Claude Code | 多人共建单个项目 | 最先投入 |
| 孙洋 | AI开发部 | 已全职投入 | 全职投入 | Claude Code | 个人项目 | — |
| 温琦琛 | 应用开发部 | 已参与 | 全职参与 | 待定 | 待定 | — |
| 智文卓 | 智能座舱集成与验证部 | 已参与 | 全职参与 | 待定 | 待定 | — |
| 李滨航 | 技术开发部 | 已参与 | 已参与 | Claude Code | 个人项目 | — |
| 待定1 | — | — | — | — | — | — |
| 待定2 | — | — | — | — | — | — |
| 待定3 | — | — | — | — | — | — |
| 待定4 | — | — | — | — | — | — |
协作模式说明:
- 个人项目:独立负责某个子项目/模块,单人+Agent完成
- 多人共建单个项目:多人+Agent协作同一项目,需代码协调机制
当前状态:6人已确认 + 4人待定。已参与4人(王津男、温琦琛、智文卓、李滨航),2人已全职投入(朱麒宇、孙洋)。
五、所需资源
5.1 Coding Agent(不限Token)
| 优先级 | 方案 | 模型 | 说明 |
|---|---|---|---|
| 优选 | Claude Code | Opus 4.7 / Mythos | 需海外访问,当前最强Coding Agent |
| 次选 | OpenAI Codex | GPT 5.5 Max | 香港可用性待确认,需全套OpenAI生态 |
| 次次选 | OpenCode | GPT 5.5 Max | 开源Coding Agent框架,国内可部署,模型能力依赖OpenAI |
5.2 底座模型(语音系统的)
| 模型 | 用途 | 备注 |
|---|---|---|
| Qwen3-ASR | 语音识别 | 开源 |
| Qwen3-Omni | ASR+SA融合方案(方案B) | 开源,成熟度待验证 |
| Qwen3.5-35B | SA Agent / 垂域Agent 轻量部署 | 开源,MoE高效推理 |
| Qwen3.5-122B | SA Agent 全量部署 | 开源 |
| Qwen3.5-397B | SA Agent 最高能力 | 开源,需较多GPU |
| Qwen3-TTS | 语音合成 | 开源 |
5.3 计算资源
推荐 NVIDIA GPU,以下为GPU卡数(非服务器台数):
| 资源 | 规格 | 用途 | GPU卡数 |
|---|---|---|---|
| GPU-训练 | NVIDIA GPU(H200/H800等),推荐8卡/台 | 模型训练 / 数据标注 / 测试校验 | X卡 |
| GPU-推理 | NVIDIA GPU(H200/H800等),推荐8卡/台 | 模型推理、端到端压测 | X卡 |
| CPU服务器 | — | 服务部署、CI/CD、中间件 | 2台 |
5.4 其他硬件
| 资源 | 数量 | 用途 |
|---|---|---|
| 开发机 | 10台 | 日常开发、Agent协同编码 |
| 台架 | 2台 | 系统集成测试、端侧验证 |
| 实车 | 1台(有条件) | 实车场景验证 |
5.5 海外出差(备选方案)
仅当国内无法使用 GPT 5.5 / Opus 4.7 时,团队需集中赴海外(日本/新加坡)出差以使用最强 Coding Agent。Anthropic 禁止中国大陆及香港使用 Claude,仅日本/新加坡可用。建议集中出差,减少轮换带来的协作损耗。
5.6 网络分区现状
安全限制等级:蓝区(开放区) < 绿区 < 黄区。
| 模块/资源 | 蓝区 | 绿区 | 黄区 | 说明 |
|---|---|---|---|---|
| Coding Agent | Cursor + GPT 5.5(IT装备部) | — | — | Claude Code 需海外访问,国内不可用 |
| 云端微服务 | — | 可开发 & 部署 | — | |
| 端侧微服务 | — | — | 现有 | 可迁移至绿区,难度小 |
| GPU(N卡) | — | — | 现有 | 有可能迁移至绿区,待验证 |
| 数据闭环(回流/标注) | — | 可运行 | — | 数据可在绿区回流获取 |
| 数据看板 | — | 现有 | — | |
| 私有化模型 | — | — | GLM-5.1、Qwen3-xx | 黄区可评测 |
| 模型推理服务 | — | 依赖GPU迁移 | 依赖GPU | GPU迁移至绿区后可部署 |
六、项目进展
6.1 已完成事项
| 日期 | 事项 | 说明 |
|---|---|---|
| 2026-04-23 | 需求讨论会 | 与领导及相关负责人讨论项目需求,确认方向。参会:邓杰锋、冯青青、翁武林、苗磊、赵群 |
| 2026-04-24 | 确定绿区打通方案 | 暂定在绿区打通链路,避免海外出差的复杂性。参会:缪大俊、陈剑、陈慧娟、赵群 |
| 2026-04-25 | 绿区GPU搬迁可行性 | 绿区可尝试搬迁现有的少量N卡做尝试,涉及人:林铿 |
| 2026-04-28 | VM隔离区方案讨论 | 在绿区/黄区尝试VM隔离区可控访问GPT 5.5接口。参会:缪大俊、陈剑、陈慧娟、赵群、林铿、肖春源 |
6.2 进行中事项
| 事项 | 负责方 | 说明 |
|---|---|---|
| 购买 OpenCode + GPT 5.4/5.5 | IT装备部 | 尝试采购,作为Claude Code的国内替代方案 |
| GPU搬迁至绿区 | AI开发部(林铿) | 将现有少量N卡搬迁至绿区做尝试,验证可行性 |
| VM隔离区方案可行性确认 | 陈剑 | 在绿区/黄区做VM隔离区,可控访问GPT 5.5接口 |
| VM隔离区双向数据细节补充 | 赵群 | 隔离区需与同区未隔离区双向交互数据,补充细节 |
| 信息安全特殊审批路线沟通 | 缪大俊 | 与信息安全沟通是否有方案可走特殊审批路线 |
6.3 里程碑规划
(待补充)
七、风险与应对
(待补充)
八、成功标准
(待补充)