酷,阿里通义团队刚刚放出了一款基于视觉感知RAG框架:VRAG-RL,在Qwen2.5-VL-3B上性能提升了30%
VRAG使用强化学习训练模型,使其具备多轮思考和推理能力,来逐步提高VML的理解能力和答案的准确性
在Qwen2.5-VL-7B上性能提升了20%,在Qwen2.5-VL-3B上性能提升了30%
其通过定义视觉感知动作空间,让模型从粗到细的逐步聚焦信息密集区域,精准提取关键视觉信息,提升VLM的检索、推理、理解视觉信息能力
同时具备多模态检索以及迭代推理能力,通过多轮交互逐步完善对视觉信息的理解,最终生成准确全面的答案。
我们提出 VRAG: 一个纯视觉的 RAG(检索增强生成)智能体,它使视觉语言模型(VLMs)能够从粗粒度到细粒度的视角逐步收集信息。
我们提出 VRAG-RL: 一个专为训练 VLMs 而设计的新型强化学习框架,旨在有效实现视觉丰富信息的推理、检索和理解。
我们开源了 VRAG-RL 的训练框架: 这是一个新颖的、具有强大扩展性的多轮多模态训练框架,能够支持使用多种工具进行训练。
©️版权声明:若无特殊声明,本站所有文章版权均归AI工具集原创和所有,未经许可,任何个人、媒体、网站、团体不得转载、抄袭或以其他方式复制发表本站内容,或在非我站所属的服务器上建立镜像。否则,我站将依法保留追究相关法律责任的权利。