阿里通義 Qwen3 上線 ,開源大軍再添一名猛將
4月29日,通義App與通義網頁版全面上線阿里新一代通義千問開源模型 Qwen3。用戶可以第一時間在通義App和網頁版中的專屬智能體“千問大模型”,以及主對話頁面,體驗到最強開源模型的智能能力。
Qwen3一經發布便登頂全球最強開源模型,包含8款不同尺寸,均為全新的“混合推理模型”,智能水平大幅提升的同時也更省算力。
其中,旗艦模型Qwen3-235B-A22B是一款混合專家(MoE)模型,該模型創下所有國產模型及全球開源模型的性能新高。在代碼、數學、通用能力等基準測試中,Qwen3-235B-A22B 展現出多項具有競爭力的數據,直逼 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型。
除此之外,小型 MoE 模型 Qwen3-30B-A3B 的激活參數數量是 QwQ-32B 的 10%,表現更勝一籌。而 Qwen3-32B是一款稠密(Dense)模型,部署成本低、穩定高效,是企業部署首選。
通義還開源了兩個 MoE 模型的權重:一個是擁有 2350 多億總參數和 220 多億激活參數的 Qwen3-235B-A22B,一個是擁有約 300 億總參數和 30 億激活參數的小型 MoE 模型 Qwen3-30B-A3B。此外,六個 Dense 模型也已開源,包括 Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B,均在 Apache 2.0 許可下開源。
目前, Qwen3-30B-A3B等經過后訓練的模型已在 Hugging Face、ModelScope 和 Kaggle 等平臺上開放使用。用戶可在 Qwen Chat 網頁版 (chat.qwen.ai) 和通義 APP 中試用 Qwen3。
深思考,多語言
Qwen3 支持兩種思考模式:
深入思考:在這種模式中,模型會逐步推理,經過深思熟慮后給出最終答案,非常適合需要深入思考的復雜問題。
快速思考:在這種模式中,模型提供快速、近乎即時的響應,適用于那些對速度要求高于深度的簡單問題。
用戶可以根據具體任務控制模型進行“思考”的程度,復雜的問題可以通過深入思考來解決,而簡單的問題則可以通過快速作答。
值得關注的是,這兩種模式的結合大大增強了模型實現穩定且高效的“思考預算”控制能力,讓用戶能夠更輕松地為不同任務配置特定的預算,在成本效益和推理質量之間實現更優的平衡。
除了多種思考模式,Qwen3 模型還支持多語言功能,涵蓋了 119 種語言和方言。
X上網友也紛紛給出好評!
網友表示,Qwen 3 能快能慢,答案精準。對于編碼,它運行良好。對于數學,它保持平靜。對于語言,它非常真實。
“開源模型已經很久沒有這么好了?!?/p>
預訓練,后訓練
Qwen3 預訓練實現了三重升級:
第一重,數據增強。預訓練語料規模達36萬億token,是Qwen2.5的2倍,覆蓋119種語言。通義通過多源數據構建了強大的數據集:
網絡數據+PDF文檔提?。≦wen2.5-VL處理)
專家模型合成數學/代碼數據(Qwen2.5-Math/Coder生成教材/問答/代碼)
第二重,階段訓練。預訓練過程分為三個階段:
S1基礎訓練:30萬億token(上下文長度為4K token),建立基礎能力
S2知識強化:5萬億token,提升STEM/編程/推理數據占比
S3長文本適應:32K token上下文訓練,優化長文本處理
第三重,性能突破。
Dense模型:小參數量對標 Qwen2.5(如1.7B≈3B),STEM/編程/推理能力反超 Qwen2.5
MoE模型:使用10%激活參數達到Qwen2.5 Dense水平,訓練推理成本大幅降低
后訓練方面,通義實施了一個四階段的訓練流程:
長思維鏈冷啟動:涵蓋數學、代碼、邏輯推理和 STEM 問題等多種任務和領域,配備基本推理能力
長思維鏈強化學習:大規模強化學習,基于規則的獎勵增強模型的探索和鉆研能力
思維模式融合:整合非思考模式,確保推理和快速響應能力無縫結合
通用強化學習:應用強化學習于指令遵循、格式遵循和 Agent 能力等在內的 20 多個通用領域,增強模型的通用能力并糾正不良行為
Qwen3使用演示
首先來看 Hugging Face transformers 中使用 Qwen3-30B-A3B 的標準示例:
要禁用思考模式,只需對參數 enable_thinking 進行如下修改:
可以使用 sglang>=0.4.6.post1 或 vllm>=0.8.4來創建一個與 OpenAI API 兼容的 API endpoint:
若要禁用思考模式,可以通過移除參數 --reasoning-parser(以及 --enable-reasoning)。
如果用于本地開發,可以通過運行簡單的命令 ollama run qwen3:30b-a3b 來使用 ollama 與模型進行交互,也可以使用 LMStudio 或者 llama.cpp 以及 ktransformers 等代碼庫進行本地開發。
還有一種軟切換機制,允許用戶在 enable_thinking=True 時動態控制模型的行為,只需在用戶提示或系統消息中添加 /think 和 /no_think,就可以逐輪切換模型的思考模式:
Qwen3 在工具調用方面同樣表現出色。Qwen-Agent 內部封裝了工具調用模板和工具調用解析器,降低代碼復雜性:
今年1月份千問發布Qwen2.5-Max,性能比肩DeepSeek V3、GPT-4和Claude-3.5-Sonnet。短短三個月又迎來Qwen3,阿里在AGI這條路上又完成了一個里程碑。此次的亮點旨在"雙模推理"技術——允許用戶在深度推理的思考模式與及時響應的非思考模式間自由切換,并提供計算資源動態分配接口,為不同場景需求提供精準算力支持。
未來,通義團隊計劃從擴展數據規模、增加模型大小、延長上下文長度、拓寬模態范圍等方面提升模型性能,從訓練模型的時代,慢慢過渡到訓練 Agent 的時代。
參考資料: https://mp.weixin.qq.com/s/OvobsCPW0IwxeSm8pljv-A
雷峰網 (公眾號:雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見 轉載須知 。