COLLABORATION

座舱Agent RL与Harness

一、合作概述

与高校合作推进座舱Agent强化学习训练与工程框架能力建设,聚焦仿真环境下的Agent RL训练、智能化评估体系构建,以及快速接入Agent能力和基模适配能力的工程框架开发。

合作方:人民大学 董老师

应用场景:董老师曾分享迎宾系统实践——根据人的状态(位置、行为、情绪等)进行智能对话与主动打招呼,将此经验融入座舱Agent的场景理解与交互能力。

二、合作方向

2.1 座舱Agent RL

2.1.1 仿真环境下的Agent RL训练

在座舱仿真环境中对Agent进行强化学习训练,提升Agent在多轮对话、工具调用、任务规划等方面的能力:

2.1.2 Agent智能化评估

构建系统化的Agent能力评估体系:

2.2 座舱Harness

2.2.1 构建快速接入Agent能力

开发Agent接入框架,降低Agent开发与集成门槛:

2.2.2 灵活的基模适配能力

构建基座模型适配层,支持多种基座模型的快速切换与部署:

三、资源要求

资源规格用途
GPU200张 910CAgent RL训练、模型推理、评估测试

910C 为华为昇腾910C芯片,适合大规模分布式训练场景。

四、合作方信息

项目信息
合作高校中国人民大学
负责人董老师
合作方向座舱Agent RL / 座舱Harness

五、一期规划

一期周期:6–9个月

5.1 下周细化重点

下周二(2026-05-19)将进行一期规划细化,聚焦以下两个方向:

  1. 记忆系统的改进 + 迎宾体验:基于董老师迎宾系统的状态感知经验,改进Agent记忆系统,实现基于用户状态的主动交互与个性化迎宾体验
  2. Agent RL:明确仿真环境下的RL训练方案、评估指标与迭代节奏

5.2 车BU侧建议

5.2.1 技术路线:以MOPD Pipeline为主

建议以 MOPD(Multi-teacher On-Policy Distillation)Pipeline 为核心合作主线,覆盖完整链路:

模型规格覆盖:35B-A3B / 122B-A10B

5.2.2 能力覆盖

聚焦两大类能力:

  1. 车控/导航类基于状态的RLVR:基于车辆状态(位置、导航阶段、控制意图等)进行强化学习训练,优化车控与导航场景下的Agent决策
  2. 融合播报:多源信息融合的智能播报能力,实现上下文感知的主动播报与个性化表达

5.2.3 测试集来源

5.2.4 效果目标

5.3 人力安排

角色人数说明
实习生3人负责Agent RL训练实验、评估测试与Harness开发