COLLABORATION
座舱Agent RL与Harness
一、合作概述
与高校合作推进座舱Agent强化学习训练与工程框架能力建设,聚焦仿真环境下的Agent RL训练、智能化评估体系构建,以及快速接入Agent能力和基模适配能力的工程框架开发。
合作方:人民大学 董老师
应用场景:董老师曾分享迎宾系统实践——根据人的状态(位置、行为、情绪等)进行智能对话与主动打招呼,将此经验融入座舱Agent的场景理解与交互能力。
二、合作方向
2.1 座舱Agent RL
2.1.1 仿真环境下的Agent RL训练
在座舱仿真环境中对Agent进行强化学习训练,提升Agent在多轮对话、工具调用、任务规划等方面的能力:
- 基于状态的RLVR:在仿真环境中,Agent通过与环境交互获得状态反馈,基于状态信息进行强化学习训练,优化决策策略
- OPD能力融合:On-Policy Distillation,融合多teacher的在线学习RL策略,通过多个专家模型的在线蒸馏提升Agent能力
2.1.2 Agent智能化评估
构建系统化的Agent能力评估体系:
- 测试集构建:面向座舱场景构建多维度测试集,覆盖多轮对话、工具调用、异常处理等场景
- 基于LLM的任务评估:利用LLM作为评判器,对Agent输出进行自动化质量评估,减少人工评估成本,提高评估效率和一致性
2.2 座舱Harness
2.2.1 构建快速接入Agent能力
开发Agent接入框架,降低Agent开发与集成门槛:
- 统一的Agent接口规范
- 标准化的工具注册与发现机制
- 开箱即用的Agent模板与示例
- 配置化的Agent行为定义
2.2.2 灵活的基模适配能力
构建基座模型适配层,支持多种基座模型的快速切换与部署:
- 模型接口抽象层,屏蔽不同模型API差异
- 模型配置化管理,支持热切换
- 推理框架适配(vLLM / SGLang 等)
- 模型性能基准测试与选型建议
三、资源要求
| 资源 | 规格 | 用途 |
|---|---|---|
| GPU | 200张 910C | Agent RL训练、模型推理、评估测试 |
910C 为华为昇腾910C芯片,适合大规模分布式训练场景。
四、合作方信息
| 项目 | 信息 |
|---|---|
| 合作高校 | 中国人民大学 |
| 负责人 | 董老师 |
| 合作方向 | 座舱Agent RL / 座舱Harness |
五、一期规划
一期周期:6–9个月
5.1 下周细化重点
下周二(2026-05-19)将进行一期规划细化,聚焦以下两个方向:
- 记忆系统的改进 + 迎宾体验:基于董老师迎宾系统的状态感知经验,改进Agent记忆系统,实现基于用户状态的主动交互与个性化迎宾体验
- Agent RL:明确仿真环境下的RL训练方案、评估指标与迭代节奏
5.2 车BU侧建议
5.2.1 技术路线:以MOPD Pipeline为主
建议以 MOPD(Multi-teacher On-Policy Distillation)Pipeline 为核心合作主线,覆盖完整链路:
- 测试集构建:面向座舱场景构建多维度测试集
- 训练Pipeline:MOPD在线蒸馏训练流程,支持多teacher融合
- 仿真沙盒:座舱仿真环境,提供状态反馈与交互验证
模型规格覆盖:35B-A3B / 122B-A10B
5.2.2 能力覆盖
聚焦两大类能力:
- 车控/导航类基于状态的RLVR:基于车辆状态(位置、导航阶段、控制意图等)进行强化学习训练,优化车控与导航场景下的Agent决策
- 融合播报:多源信息融合的智能播报能力,实现上下文感知的主动播报与个性化表达
5.2.3 测试集来源
- 线上难例挖掘:从线上真实交互数据中挖掘corner case与高频失败场景,构建难例测试集
- 轻量级用户模拟器:构建用户行为模拟器,自动生成多样化交互场景,补充覆盖线上未触达的长尾case
5.2.4 效果目标
- 垂域提升:在座舱垂域任务测试集(含上述难例)上,效果优于底座模型 10%+
- 通用保底:通用能力不下降,确保模型在通用基准上持平或优于底座
5.3 人力安排
| 角色 | 人数 | 说明 |
|---|---|---|
| 实习生 | 3人 | 负责Agent RL训练实验、评估测试与Harness开发 |