阿里的Deep Research项目:WebDancer,原生智能体搜索推理模型,可以在网上自主搜索信息,完成多步推理的复杂任务

在GAIA测试中达到了61.1%的Pass@3准确率

能理解复杂的提问并自主搜索信息:无需人工干预,可以在网上自主浏览网页,找到隐藏在多层网页中的信息

能多步推理:可以根据从不同网页收集到的信息进行比较、推理,最终得出问题的答案

具备自主学习能力


我们提出一种基于ReAct框架的原生自主智能搜索推理模型,旨在实现类深度研究(Deep Research-like)的自主信息探索能力。该模型采用四阶段训练范式

  1. 浏览数据构建

  2. 行为轨迹采样

  3. 监督微调实现高效冷启动

  4. 强化学习提升泛化能力
    使智能体自主获得搜索推理能力。

通过数据驱动的动作路径优化(DAPO)方法,融合轨迹级监督微调与强化学习,构建了可扩展的智能体训练管线(支持SFT/RL双模式)。在基准测试中,WebDancer系统取得:
 GAIA基准:61.1% Pass@3得分
 WebWalkerQA基准:54.6% Pass@3得分




©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。

类似网站