MEMBER ACTIVITY

朱麒宇@z30076124

AI 总结

朱麒宇近期工作分析

工作重心

主要聚焦于 SA-Next 项目,多线并行推进:

  1. Media Agent 开发(核心产出)
  2. 完成 ReAct 集成:CBP搜索 + 自动消歧 + CLARIFY
  3. 完成搜索播放评测:数据+脚本+报告已合并
    1. 导航Agent 沙盒融合
    2. 完成 Simulater 沙盒融合(DomainState + ReferenceStore + ToolFacade)
    3. 完成 sandbox fusion module(facade + adapter + plan_route)
      1. RL训练优化
      2. verl RL 训练接入沙盒
      3. 导航Agent多轮蒸馏训练规划(Vanilla OPD → TCOD)
      4. 当前重点

        • 🔴 Fully Async RL 改造:从 Hybrid Async 到分离式并行训练(新创建 issue#48)
        • 🟡 导航Agent评测集导入:指标摸底评测(当前任务 #8)
        • 🟡 导航Agent多轮蒸馏:分阶段落地规划(issue#41)

        潜在瓶颈

        • 任务并行度过高:同时推进 Media Agent、导航Agent、RL训练三大方向
        • RL改造复杂度:Fully Async 分离式并行训练涉及架构重构,需关注依赖关系
        • 评测进度:导航Agent评测集任务截止日期为 None,需确认优先级

        建议

        • 考虑优先完成评测集摸底,为后续 RL 训练提供基线数据
        • RL 改造可先完成技术方案评审,再逐步推进

        *本总结由 AI 生成,仅供参考