6月5日音讯(报导 :李楠)近来 ,清华清华蚂蚁联合研制的蚂蚁全异步强化学习练习体系AReaL-boba 。2 。联合(AReaL v0.3 )正式宣告开源。开源据了解,清华这一体系全面完结了异步强化学习练习 ,蚂蚁彻底解耦模型生成与练习 ,联合功能作用不变的开源前提下,练习速度对比上一版别最高提高2.77倍,清华GPU资源利用率大幅优化。蚂蚁研讨人员运用这一体系在Qwen3 系列模型上做强化学习练习,联合完结8B、开源14B 模型在 LiveCodeBench,清华 Codeforce, Codecontest 等benchmark上到达SOTA水准。 此外,蚂蚁 AReaL-boba。联合2。还原生支撑多轮智能体强化学习练习,开发者能够依据自己的需求自在定制智能体和智能体环境,进行多智能体Agentic RL练习。
寻觅统筹高效能、高效率的强化学习练习方法,一直是从业人员继续面对的课题。在传统的强化学习练习流程中,同步强化学习练习每一个批次(batch)的数据都是由同一个模型版别发生 ,因而模型参数更新需求等候批次中数据悉数生成完结才干发动。因为推理模型的输出长短差异极大,在相同的批巨细(batch size)下 ,强化学习练习有必要等候批次中最长的输出生成完才干继续进行练习,以及进行下一个批次的数据搜集,形成极大GPU资源糟蹋。而异步强化学习(Asynchronous RL)将数据生成与模型练习彻底解耦,以不间断的流式生成和并行练习的核算方法,极大提高了资源运用率 ,天然适用于多次序交互的Agent场景。业界以为,异步强化学习是一种重要的算法范式,将成为未来强化学习的重要方向之一 。
在AReaL-boba。2 。的工作中,研讨人员经过算法体系co-design的方法完结了彻底异步强化学习练习(fully asynchronous RL),从根本上处理了同步强化学习的各种问题。AReaL。–boba。2 。生成使命继续流式进行以保证GPU资源一直满载运转,杜绝了GPU闲暇。AReaL。–boba。2。的体系规划能够在保证安稳RL练习的一起,参数同步的通讯和核算花销仅占总练习时刻的1%以内。此外 ,因为全异步RL中同批次数据或许由不同版别的模型发生,AReaL 。–boba 。2。也对RL算法进行了晋级,在提速的一起保证模型作用。
AReaL由蚂蚁技能研讨院和清华大学穿插信息研讨院一起建议,是国内首个完好开源数据 、代码、模型 、脚本的强化学习开源项目 。现在AReaL现已开源了AReaL v0.1版、AReaL v0.2版(AReaL-boba) 。其间,AReaL v0.2(AReaL-boba) 版别是其里程碑版别,可用128张H800 GPU 在1天练习完结SOTA 1.5B推理模型练习 ,256张H800 GPU 2天内完结SOTA 7B 推理模型练习的作用。此前AReaL-boba项目也得到了来自海外开发者的高度认可 ,点评“AReal-boba经过敞开SOTA推理模型的资源和通明的练习方法,让先进的AI推理技能平权化,降低了研讨的门槛。 ” 。
AReaL团队在技能陈述中表明,该项目交融了蚂蚁强化学习实验室与清华穿插信息院吴翼团队多年的技能堆集,也获得了很多来自蚂蚁集团超算技能团队和数据智能实验室的协助。AReaL 的诞生离不开 DeepScaleR 、Open-Reasoner-Zero、OpenRLHF 、VeRL、SGLang 、QwQ、Light-R1、DAPO 等优异开源结构和模型的启示 。