MEMBER ACTIVITY
朱麒宇@z30076124
AI 总结
朱麒宇近期工作分析
工作重心
主要聚焦于 SA-Next 项目,多线并行推进:
- Media Agent 开发(核心产出)
- 完成 ReAct 集成:CBP搜索 + 自动消歧 + CLARIFY
- 完成搜索播放评测:数据+脚本+报告已合并
- 导航Agent 沙盒融合
- 完成 Simulater 沙盒融合(DomainState + ReferenceStore + ToolFacade)
- 完成 sandbox fusion module(facade + adapter + plan_route)
- RL训练优化
- verl RL 训练接入沙盒
- 导航Agent多轮蒸馏训练规划(Vanilla OPD → TCOD)
- 🔴 Fully Async RL 改造:从 Hybrid Async 到分离式并行训练(新创建 issue#48)
- 🟡 导航Agent评测集导入:指标摸底评测(当前任务 #8)
- 🟡 导航Agent多轮蒸馏:分阶段落地规划(issue#41)
- 任务并行度过高:同时推进 Media Agent、导航Agent、RL训练三大方向
- RL改造复杂度:Fully Async 分离式并行训练涉及架构重构,需关注依赖关系
- 评测进度:导航Agent评测集任务截止日期为 None,需确认优先级
- 考虑优先完成评测集摸底,为后续 RL 训练提供基线数据
- RL 改造可先完成技术方案评审,再逐步推进
当前重点
潜在瓶颈
建议
*本总结由 AI 生成,仅供参考