AReaL v1.0稳固版来了,蚂蚁结合清华大学发布:让肆意Agent跑上强化进修
2026-03-04 13:12:58
3月4日消息,今天蚂蚁集团联合清华大学发布开源强化学习训练框架AReaL v1.0稳定版,主打Agent一键接入RL训练,不用改代码即可兼容各类Agent框架,让智能体强化学习训练开箱即用。
近日以LangChain、Claude Code、OpenClaw为代表的智能体框架持续升温,但是还存在两大痛点。
一是接入训练成本高,现有智能体框架接口各异,每接入一个往往需要编写整套适配代码;同时多数Agent能力受限于底层模型的固定权重,部署后无法针对特定场景持续优化。
而AReaL作为首个全异步训推解耦的大模型强化学习训练系统,让Agent能在真实任务交互中获取反馈、持续优化决策。

此次发布的v1.0版本,能让任意Agent零改造接入RL训练成为现实,通过在智能体与训练系统之间加入Proxy Worker中转层,开发者只需修改一个请求地址即可接入训练。
以OpenClaw为例,开发者仅需在配置文件中将base_url和api_key指向AReaL网关,即可让智能体接入强化学习训练。
用户周期性对任务完成质量打分,AReaL后台自动完成数据采集与模型更新,使智能体在使用过程中持续进化。

该版本还推出原生训练引擎Archon,基于PyTorch实现完整的5D并行(数据并行、流水线并行、张量并行、上下文并行、专家并行),便于在不同环境中灵活部署,能够支持千亿参数级MoE模型的分布式训练。
至于未来,将继续围绕训练引擎、易用性和多模态智能体训练等方向迭代,目前AReaL v1.0的代码与文档已在inclusionAI社区开源。

相关阅读
-
加密市场的高频交易 (HFT)是什么?如何在加密货币中使用高频交易策略?区块链快讯 2026-03-04 13:11:20
-
优质液体收集器系统- 高效稳定的液体收集解决方案资讯百科 2026-03-04 13:08:23
-
57岁男人会餐饮酒后咳血进ICU 大夫提示,饭桌上这些习气要防止深度解读 2026-03-04 13:07:26
-
回归物理按键,奥迪CEO确认:Concept C电动跑车两年内上市金融科技前沿 2026-03-04 13:07:03
-
41岁打铁花网红一氧化碳中毒作古 弟弟,再也看不到他打铁花的身影了深度解读 2026-03-04 13:02:03
-
解析泰达币是否合法交易:法律监管与市场环境的全面评估区块链快讯 2026-03-04 13:01:44
-
成品短视频代码推荐大全:全面解读直播视频软件的精彩应用区块链快讯 2026-03-04 13:00:56
-
李国庆伉俪现身嫣然病院 给孩子们发红包 与李亚鹏泛论交换金融科技前沿 2026-03-04 13:00:13
-
让我们一起参与“寸止榨汁挑战每日大赛”的精彩直播深度解读 2026-03-04 12:57:59
-
老婆要离婚丈夫要求返还10万元彩礼 法院,不予支撑深度解读 2026-03-04 12:57:15