🚀 [2026/06/18] Recent Updates Summary for ROLL Project

大家好！感谢大家对ROLL的关注。ROLL发布了v0.3.0版本，新增Video RLVR、AgentRunner 2.0、MTP训练、Router Replay、Multi-Teacher OPD等重要特性；新增OpenTelemetry可观测性支持；强化mcore_adapter能力；扩展NPU/AMD硬件适配。以下是近期更新的一些梳理，我们将持续对ROLL进行迭代更新，欢迎加入ROLL的社区。

## 🚀 亮点

- 新增 Video/Audio RLVR 训练支持（Video-R1 reward）
- 新增 AgentRunner 2.0 抽象，解耦Agent交互逻辑，支持更灵活的多轮Agent场景
- 新增 RemoteBatch 惰性数据传输机制，优化大规模 image/video/long_context logits 跨Worker传输
- 新增 MoE Router Replay (R3)，MoE模型训练时复用rollout阶段的路由决策
- 支持 Qwen3.5/3.6 MTP (Multi-Token Prediction) SFT/RL 训练
- 新增 OpenTelemetry 分布式追踪，提供端到端可观测性

## 🚀 主要新特性

### Pipeline

- 新增 [Video](examples/qwen3-vl-30BA3B-video-rlvr/video_r1.yaml)/[Audio](examples/qwen3-omni/audio_test_80G.yaml) RLVR Pipeline，支持视频、音频理解场景的强化学习训练(Qwen3Omni系列模型)
- 新增 Multi-Teacher On-Policy Distillation 支持，[文档](docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/on_policy_distill_pipeline_start.md)
- 新增 LLM-as-Judge Server 模式，支持独立部署 judge 服务，[示例配置](examples/qwen2.5-7B-rlvr_megatron/rlvr_config_8gpus_llm_as_judge_server.yaml)

### Agent Native 2.0

- 新增 AgentRunner 抽象，解耦"Agent如何与环境交互"与"训练样本构造"，[设计文档](docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Agentic/agent_runner.md)
- 新增 ProxyEnvManager / MessageTracker，支持更复杂的Agent交互模式，[设计文档](docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Agentic/prefix_aggregation.md)
- 新增 Atropos 环境集成，[示例配置](examples/agentic_demo/atropos_gsm8k_grpo_qwen25_0.5b.yaml)
- 新增 OpenReward 环境集成，[示例配置](examples/agentic_demo/openreward_endless_terminals_reinforce_qwen35_2b.yaml)

### mcore_adapter

- 新增 MTP (Multi-Token Prediction) 训练支持（standalone/joint两种模式），[使用文档](docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/mtp_training.md)
- 新增 Router Replay (R3)，MoE训练时复用rollout路由决策，减少重计算开销，[使用文档](docs_roll/docs/User Guides/Advanced Features/router_replay.md)
- 新增 Fused Entropy CE kernel，TP=1场景下加速交叉熵计算
- 新增 PP Stage Compile Warmup，Pipeline并行编译预热
- Qwen3.5/3.6系列 VLM sequence packing 优化

### RemoteBatch 传输优化

- 新增惰性数据传输后端，支持 image/video/long_context 场景下大规模数据高效传输，[使用文档](docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/remote_batch_transfer.md)
- 基于[TransferQueue](https://github.com/Ascend/TransferQueue)优化 Ray Worker 间存储管理

### Observability

- 新增 OpenTelemetry 集成，支持分布式追踪，[使用文档](docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Advanced Features/opentelemetry_tracing.md)
- 新增 OTEL Receiver，pipeline各阶段端到端tracing

### FSDP2

- 新增 Qwen3 MoE patch，支持 MoE 模型 FSDP2 训练
- LoRA模型支持优化
- FSDP2 / EP并行支持

### Docker

- 新增 NPU A2/A3 Docker 镜像
- 新增 AMD torch2.8.0/torch2.10 Docker 镜像

### Hardware

- NPU：新增 A2/A3 适配，修复 FSDP2 相关问题，新增 Ascend 全流程文档
- AMD：新增 torch2.10 支持，ROCm参数同步优化

### Models

- 支持 [Qwen3.5 Dense (27B)](examples/qwen3.5-27B-rlvr_megatron/rlvr_megatron_80GB.yaml) / [MoE (35B-A3](examples/qwen3.5-35BA3-rlvr_megatron/rlvr_megatron_80GB.yaml), [122B-A10](examples/qwen3.5-122A10-rlvr_megatron/rlvr_megatron_80GB.yaml), [397A-17](examples/qwen3.5-397A17-rlvr_megatron/rlvr_megatron_80GB.yaml)) 系列模型
- 提供 Megatron + FSDP2 多种规格配置示例

### Performance 优化

- do_checkpoint pin_memory 优化
- GC 优化
- low-memory checkpoint convert

### Bug Fix

- fix sglang & vllm 偶现 port conflict
- fix reward worker metrics 透出
- fix vllm GDN attention mixed decode/spec-decode crash（vllm < 0.17.2）

## Deprecated

- DeepSpeed Strategy（third_party代码已移除）
- Wan RewardRL（生成模型的RL训练重构中）



## TODOs

- Multi Agent 支持
- Full vocab version Multi-Teacher OPD

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

🚀 [2026/06/18] Recent Updates Summary for ROLL Project #464

🚀 亮点

🚀 主要新特性

Pipeline

Agent Native 2.0

mcore_adapter

RemoteBatch 传输优化

Observability

FSDP2

Docker

Hardware

Models

Performance 优化

Bug Fix

Deprecated

TODOs

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

🚀 [2026/06/18] Recent Updates Summary for ROLL Project #464

Description

🚀 亮点

🚀 主要新特性

Pipeline

Agent Native 2.0

mcore_adapter

RemoteBatch 传输优化

Observability

FSDP2

Docker

Hardware

Models

Performance 优化

Bug Fix

Deprecated

TODOs

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions