
Alibaba AI launches four consecutive initiatives, sweeping the top spot on global open-source rankings

本週阿里通義團隊接連推出 Qwen3-235B 非思考版本、Qwen3-Coder 編程模型、Qwen3-235B-A22B-Thinking-2507 推理模型,以及 WebSailor AI Agent 框架,四款產品橫掃基礎模型、編程模型、推理模型和智能體領域的開源榜單。
阿里巴巴通義團隊用四連發的重磅出擊,橫掃 Github 開源榜單。
本週從 7 月 22 日到 25 日,阿里接連推出 Qwen3-235B 非思考版本、Qwen3-Coder 編程模型、Qwen3-235B-A22B-Thinking-2507 推理模型,以及 WebSailor AI Agent 框架,四款產品橫掃基礎模型、編程模型、推理模型和智能體領域的開源榜單。
權威機構 Artificial Analysis 更是直接評價:
通義千問 3 是全球最智能的非思考基礎模型。
非思考模型也能性能 “爆表”
據硬 AI,週二凌晨阿里巴巴通義千問團隊推出非思考模式(Non-thinking)最新模型,命名為 Qwen3-235B-A22B-Instruct-2507-FP8。
這款非思考模型在多項關鍵基準測試中表現出色。不僅全面超越了 Kimi-K2 等頂級開源模型,甚至領先 Claude-Opus4-Non-thinking 等頂級閉源模型。

值得一提的是,本次更新的 Qwen3 模型在 Agent 能力尤其亮眼:在 BFCL(Agent 能力)測評中表現卓越。這意味着模型在理解複雜指令、自主規劃、調用工具以完成任務的能力上,達到了一個新的高度。“主打 Agent”,將是未來 AI 應用的核心競爭力。

編程模型引發社區沸騰
7 月 23 日發佈的 Qwen3-Coder 更是在全球開發者社區引發轟動。

華爾街見聞此前提及,這款基於 MoE 架構的編程模型擁有 480B 總參數,35B 激活參數,原生支持 256K 上下文,可擴展至 1M。
在開發者最關注的 SWE-bench Verified 基準測試中,Qwen3-Coder 取得了開源模型最佳表現。

模型在 7.5 萬億 token 規模上訓練,其中包含 70% 代碼數據,並通過長時程強化學習和 2 萬個虛擬環境的大規模實戰訓練,在真實世界的多輪交互任務中展現出色能力。
阿里還推出了配套的命令行工具 Qwen Code,為開發者提供了完整的編程解決方案。
科技界領袖紛紛為 Qwen3-Coder 點贊,例如 Perplexity CEO Aravind Srinivas 盛讚 Qwen3-coder 的實力:
成果令人驚歎,開源正在獲勝。
推特創始人 Jack Dorsey 更是強調 Qwen3 和 Goose——其 Block 公司開發的 AI Agent 框架,搭配使用的話非常棒:
goose 配合 Qwen3-Coder 等於哇哦
AI Agent 框架挑戰閉源壟斷
阿里通義實驗室同期開源的 WebSailor AI Agent 框架,直接對標 OpenAI 的 Deep Research 產品。
這款框架在 BrowseComp-en/zh 測試中性能顯著優於所有開源智能體,可媲美專屬閉源模型。

WebSailor 採用複雜任務生成和強化學習模塊的雙重技術架構。通過構建複雜知識圖譜和動態採樣策略,系統能夠在海量信息中進行高效檢索和推理。
除了在複雜任務上的卓越表現,WebSailor 在簡單任務上也表現出色。例如,在 SimpleQA 基準測試中,WebSailor 的性能超過了所有其他模型產品。
該項目在 GitHub 已獲得超過 5000 顆星,並曾拿下每日增長趨勢第一名。

WebSailor 的核心技術主要圍繞複雜任務生成和強化學習模塊展開,這兩個模塊相互配合,共同推動了開源智能體在複雜信息檢索任務中的性能提升。
該框架的開源意義重大,打破了閉源系統在信息檢索領域的壟斷地位,為全球開發者提供了媲美 Deep Research 的開源解決方案。
推理模型登頂全球開源冠軍
7 月 25 日發佈的 Qwen3-235B-A22B-Thinking-2507 成為本週最重磅的產品。
- AIME25(數學)達到 92.3 分。
- LiveCodeBench v6(編程)獲得 74.1 分。
- WritingBench(寫作)達到 88.3 分。
- PolyMATH(多語言數學)獲得 60.1 分。
更詳細的榜單表現來看,Qwen3 推理模型相較於其他模型來看也毫不遜色(除了 R1,其他都是頂尖閉源模型)。

該模型採用 MoE 架構,總參數 235B,激活參數 22B,擁有 94 層結構和 128 個專家系統,原生支持 262,144 tokens 上下文長度。模型專為思考模式構建,默認聊天模板自動包含思考標籤,為深度推理提供了強大支撐。
OpenRouter 數據顯示,阿里千問的 API 調用量在過去幾天暴漲,已超過 1000 億 tokens,包攬最熱門調用模型前三名。這一數據直接反映了市場對阿里開源模型的認可度。

全球網友也是被通義的最強推理模型給驚呆了。有網友直接表示:
中國的開源 o4-mini。
AI Thinkers 更是評論道:
中國剛剛發佈了一款怪物級的 AI 模型。





