阿里云通义Qwen2.5-VL发布,视觉AI新标杆超越GPT-4o

   发布时间:2025-01-28 15:11 作者:江紫萱

阿里云在今日宣布了一项重大技术突破,其通义千问平台正式推出了全新的视觉模型Qwen2.5-VL,该模型提供了三种不同规模的版本,包括3B、7B以及旗舰级的72B版本。

尤为引人注目的是,旗舰版本Qwen2.5-VL-72B在多达13项权威视觉理解评测中拔得头筹,其表现甚至超越了业界知名的GPT-4和Claude3.5模型。

据官方详细介绍,Qwen2.5-VL在图像内容解析方面展现出了极高的准确性。更为突破性的是,该模型能够支持长达一小时的视频内容理解,用户可以在视频中搜索特定事件,并对视频进行分段要点总结,从而快速提取出关键信息,极大地提升了工作效率。

Qwen2.5-VL无需经过繁琐的微调过程,即可变身为一个功能强大的AI视觉智能体,能够操控手机和电脑,执行如给朋友发送祝福信息、电脑图像编辑、手机订票等多步骤复杂操作。

在图像识别能力上,Qwen2.5-VL不仅擅长识别日常生活中的常见物体,如花、鸟、鱼、虫,还能深入分析图像中的文本、图表、图标、图形以及整体布局。

该模型在OCR(光学字符识别)技术上也实现了显著提升,增强了多场景、多语言和多方向的文本识别和定位能力。同时,Qwen2.5-VL在信息抽取能力上进行了大幅度优化,以更好地满足资质审核、金融商务等领域的数字化、智能化需求。

Qwen2.5-VL的推出,标志着阿里云在视觉模型领域取得了又一重要里程碑,为人工智能技术的发展注入了新的活力。

 
 
更多>同类内容
全站最新
热门内容
本栏最新