阿里新一代Qwen3大模型发布:混合推理,快慢思考自如切换

   发布时间:2025-04-29 20:29 作者:顾青青

阿里巴巴于近日震撼发布其最新一代通义千问大语言模型——Qwen3,此举标志着中国在开源语言模型领域取得了世界级突破,Qwen3一跃成为全球顶尖的开源模型。

Qwen3的核心竞争力在于其开创性的混合推理架构,这是国内首次将“快速思考”与“深度思考”机制融合于单一模型的创新实践。该架构不仅赋予Qwen3处理复杂问题时的多步骤深度推理能力,还能迅速响应简单任务,实现了算力资源的高效利用,完美平衡了性能与效率。

Qwen3具备卓越的多语言处理能力,覆盖简体中文、繁体中文、粤语等119种语言和方言,这一特性显著拓宽了其应用场景,使其能够更灵活地服务于全球范围内的用户,满足多样化的语言需求。

为了满足不同用户群体的需求,阿里云精心推出了8款规模各异的Qwen3模型,其中包括两款MoE(专家混合)模型:Qwen3-235B-A22B与Qwen3-30B-A3B,分别拥有2350亿和300亿总参数,以及220亿和30亿激活参数。还有六款Dense模型,参数规模从0.6B至32B不等,为用户提供了丰富的选择空间。所有这些模型均在Apache 2.0许可协议下开源,用户可以按需选用。

Qwen3系列模型现已通过GitHub和阿里云ModelScope平台全面开源,并遵循Apache 2.0许可协议,支持免费商用。特别是旗舰级模型Qwen3-235B-A22B,其部署仅需4张H20显卡,显存占用仅为同类模型的三分之一,极大地降低了部署成本和使用难度。

阿里巴巴的这一重大发布,无疑为全球开源社区注入了新的活力,Qwen3凭借其独特的混合推理架构和强大的多语言处理能力,有望在多个领域掀起技术创新的浪潮。

 
 
更多>同类内容
全站最新
热门内容
本栏最新