COLLABORATION

座舱Agent RL与Harness

一、合作概述

与高校合作推进座舱Agent强化学习训练与工程框架能力建设，聚焦仿真环境下的Agent RL训练、智能化评估体系构建，以及快速接入Agent能力和基模适配能力的工程框架开发。

合作方：人民大学董老师

应用场景：董老师曾分享迎宾系统实践——根据人的状态（位置、行为、情绪等）进行智能对话与主动打招呼，将此经验融入座舱Agent的场景理解与交互能力。

二、合作方向

2.1 座舱Agent RL

2.1.1 仿真环境下的Agent RL训练

在座舱仿真环境中对Agent进行强化学习训练，提升Agent在多轮对话、工具调用、任务规划等方面的能力：

基于状态的RLVR：在仿真环境中，Agent通过与环境交互获得状态反馈，基于状态信息进行强化学习训练，优化决策策略
OPD能力融合：On-Policy Distillation，融合多teacher的在线学习RL策略，通过多个专家模型的在线蒸馏提升Agent能力

2.1.2 Agent智能化评估

构建系统化的Agent能力评估体系：

测试集构建：面向座舱场景构建多维度测试集，覆盖多轮对话、工具调用、异常处理等场景
基于LLM的任务评估：利用LLM作为评判器，对Agent输出进行自动化质量评估，减少人工评估成本，提高评估效率和一致性

2.2 座舱Harness

2.2.1 构建快速接入Agent能力

开发Agent接入框架，降低Agent开发与集成门槛：

统一的Agent接口规范
标准化的工具注册与发现机制
开箱即用的Agent模板与示例
配置化的Agent行为定义

2.2.2 灵活的基模适配能力

构建基座模型适配层，支持多种基座模型的快速切换与部署：

模型接口抽象层，屏蔽不同模型API差异
模型配置化管理，支持热切换
推理框架适配（vLLM / SGLang 等）
模型性能基准测试与选型建议

三、资源要求

资源	规格	用途
GPU	200张 910C	Agent RL训练、模型推理、评估测试

910C 为华为昇腾910C芯片，适合大规模分布式训练场景。

四、合作方信息

项目	信息
合作高校	中国人民大学
负责人	董老师
合作方向	座舱Agent RL / 座舱Harness

五、一期规划

一期周期：6–9个月

5.1 下周细化重点

下周二（2026-05-19）将进行一期规划细化，聚焦以下两个方向：

记忆系统的改进 + 迎宾体验：基于董老师迎宾系统的状态感知经验，改进Agent记忆系统，实现基于用户状态的主动交互与个性化迎宾体验
Agent RL：明确仿真环境下的RL训练方案、评估指标与迭代节奏

5.2 车BU侧建议

5.2.1 技术路线：以MOPD Pipeline为主

建议以 MOPD（Multi-teacher On-Policy Distillation）Pipeline 为核心合作主线，覆盖完整链路：

测试集构建：面向座舱场景构建多维度测试集
训练Pipeline：MOPD在线蒸馏训练流程，支持多teacher融合
仿真沙盒：座舱仿真环境，提供状态反馈与交互验证

模型规格覆盖：35B-A3B / 122B-A10B

5.2.2 能力覆盖

聚焦两大类能力：

车控/导航类基于状态的RLVR：基于车辆状态（位置、导航阶段、控制意图等）进行强化学习训练，优化车控与导航场景下的Agent决策
融合播报：多源信息融合的智能播报能力，实现上下文感知的主动播报与个性化表达

5.2.3 测试集来源

线上难例挖掘：从线上真实交互数据中挖掘corner case与高频失败场景，构建难例测试集
轻量级用户模拟器：构建用户行为模拟器，自动生成多样化交互场景，补充覆盖线上未触达的长尾case

5.2.4 效果目标

垂域提升：在座舱垂域任务测试集（含上述难例）上，效果优于底座模型 10%+
通用保底：通用能力不下降，确保模型在通用基准上持平或优于底座

5.3 人力安排

角色	人数	说明
实习生	3人	负责Agent RL训练实验、评估测试与Harness开发