欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

昆侖萬維開源2千億稀疏大模型天工MoE，全球首創能用4090推理 | 速途網

速途網 ? 10月前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

速途網6月3日消息（報道：李楠）今日，昆侖萬維宣布開源 2 千億稀疏大模型 Skywork-MoE ，性能強勁，同時推理成本更低。Skywork-MoE 基于之前昆侖萬維開源的 Skywork-13B 模型中間 checkpoint 擴展而來，是首個完整將 MoE Upcycling 技術應用并落地的開源千億 MoE大模型，也是首個支持用單臺 4090 服務器推理的開源千億 MoE大模型。

開源地址：

Skywork-MoE 的模型權重、技術報告完全開源，免費商用，無需申請：

? 模型權重下載：

? https://huggingface.co/Skywork/Skywork-MoE-base

? https://huggingface.co/Skywork/Skywork-MoE-Base-FP8

? 模型開源倉庫：https://github.com/SkyworkAI/Skywork-MoE

? 模型技術報告：https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf

? 模型推理代碼：（支持 8×4090 服務器上 8 bit 量化加載推理） https://github.com/SkyworkAI/vllm

模型架構：

本次開源的 Skywork-MoE 模型隸屬于天工 3.0 的研發模型系列，是其中的中檔大小模型（Skywork-MoE-Medium），模型的總參數量為 146B，激活參數量 22B，共有 16 個 Expert，每個 Expert 大小為 13B，每次激活其中的 2 個 Expert。

天工 3.0 還訓練了 75B （Skywork-MoE-Small）和 400B （Skywork-MoE-Large）兩檔 MoE 模型，并不在此次開源之列。

模型能力：

我們基于目前各大主流模型評測榜單評測了 Skywork-MoE，在相同的激活參數量 20B（推理計算量）下，Skywork-MoE 能力在行業前列，接近 70B 的 Dense 模型。使得模型的推理成本有近 3 倍的下降。同時 Skywork-MoE 的總參數大小比 DeepSeekV2 的總參數大小要小 1/3，用更小的參數規模做到了相近的能力。

技術創新：

為了解決 MoE 模型訓練困難，泛化性能差的問題，相較于 Mixtral-MoE， Skywork-MoE 設計了兩種訓練優化算法：

1. Gating Logits 歸一化操作

我們在 Gating Layer 的 token 分發邏輯處新增了一個 normalization 操作，使得 Gating Layer 的參數學習更加趨向于被選中的 top-2 experts，增加 MoE 模型對于 top-2 的置信度：

2. 自適應的 Aux Loss

有別于傳統的固定系數（固定超參）的 aux loss，我們在 MoE 訓練的不同階段讓模型自適應的選擇合適的 aux loss 超參系數，從而讓 Drop Token Rate 保持在合適的區間內，既能做到 expert 分發的平衡，又能讓 expert 學習具備差異化，從而提升模型整體的性能和泛化水平。在 MoE 訓練的前期，由于參數學習不到位，導致 Drop Token Rate 太高（token 分布差異太大），此時需要較大的 aux loss 幫助 token load balance；在 MoE 訓練的后期，我們希望 Expert 之間仍保證一定的區分度，避免 Gating 傾向為隨機分發 Token，因此需要較低的 aux loss 降低糾偏。

訓練 Infra

如何對 MoE 模型高效的進行大規模分布式訓練是一個有難度的挑戰，目前社區還沒有一個最佳實踐。Skywork-MoE 提出了兩個重要的并行優化設計，從而在千卡集群上實現了 MFU 38% 的訓練吞吐，其中 MFU 以 22B 的激活參數計算理論計算量。

1. Expert Data Parallel

區別于 Megatron-LM 社區已有的 EP（Expert Parallel）和 ETP（Expert Tensor Parallel）設計，我們提出了一種稱之為 Expert Data Parallel 的并行設計方案，這種并行方案可以在 Expert 數量較小時仍能高效的切分模型，對 Expert 引入的 all2all 通信也可以最大程度的優化和掩蓋。相較于 EP 對 GPU 數量的限制和 ETP 在千卡集群上的低效， EDP 可以較好的解決大規模分布式訓練 MoE 的并行痛點，同時 EDP 的設計簡單、魯棒、易擴展，可以較快的實現和驗證。

一個最簡單的 EDP 的例子，兩卡情況下 TP = 2， EP = 2，其中 Attention 部分采用 Tensor Parallel ， Expert 部分采用 Expert Parallel

2. 非均勻切分流水并行

由于 first stage 的 Embedding 計算和 last stage 的 Loss 計算，以及 Pipeline Buffer 的存在，流水并行下均勻切分 Layer 時的各 stage 計算負載和顯存負載均有較明顯的不均衡情況。我們提出了非均勻的流水并行切分和重計算 Layer 分配方式，使得總體的計算/顯存負載更均衡，約有 10% 左右的端到端訓練吞吐提升。

比較均勻切分和非均勻切分下的流水并行氣泡：對于一個 24 層 Layer 的 LLM， (a) 是均勻切分成 4 個 stage，每個 stage 的 layer 數量是：[6, 6, 6, 6].(b) 是經過優化后的非均勻切分方式，切成 5 個 stage，每個 stage 的 layer 數量是：[5, 5, 5, 5, 4] ，在中間流水打滿的階段，非均勻切分的氣泡更低。

MoE Know-how

此外，Skywork-MoE 還通過一系列基于 Scaling Laws 的實驗，探究哪些約束會影響 Upcycling 和 From Scratch 訓練 MoE 模型的好壞。

一個可以遵循的經驗規則是：如果訓練 MoE 模型的 FLOPs 是訓練 Dense 模型的 2 倍以上，那么選擇 from Scratch 訓練 MoE 會更好，否則的話，選擇 Upcycling 訓練 MoE 可以明顯減少訓練成本。

4090 推理

Skywork-MoE 是目前能在 8×4090 服務器上推理的最大的開源 MoE 模型。8×4090 服務器一共有 192GB 的 GPU 顯存，在 FP8 量化下（weight 占用 146GB），使用我們首創的非均勻 Tensor Parallel 并行推理方式，Skywork-MoE 可以在合適的 batch size 內達到 2200 tokens/s 的吞吐。天工團隊完整開源了相關的推理框架代碼和安裝環境，詳情參見：https://github.com/SkyworkAI/Skywork-MoE

結語

我們希望本次開源的 Skywork-MoE 模型、技術報告和相關的實驗結果可以給開源社區貢獻更多的 MoE 訓練經驗和 Know-how，包括模型結構、超參選擇、訓練技巧、訓練推理加速等各方面，探索用更低的訓練推理成本訓更大更強的模型，在通往 AGI 的道路上貢獻一點力量。

本文被轉載1次

首發媒體

| 轉發媒體

隨意打賞

開源鴻蒙智慧加油機在哈爾濱中石油加油站正式上線使用

砍柴網 ? 5分鐘前

近日，由三盈聯合科技股份有限公司、昆侖數智科技有限責任公司、深圳市證開鴻科技有限公司三家OpenHarmony油氣專委會成員單位聯合研制的基于開源鴻蒙的智慧加油機，在中國石油黑龍江銷售分公司哈爾濱南崗公濱路站（以下簡稱“公濱路加油站”）正式上線運行。這一成果標志著OpenHarmony在油
視覺學習新突破：Meta開源WebSSL，擺脫語言束縛

砍柴網 ? 5小時前

4 月 25 日消息，科技媒體 marktechpost 昨日（4 月 24 日）發布博文，報道稱 Meta 公司發布 WebSSL 系列模型，參數規模從 3 億到 70 億，基于純圖像數據訓練，旨在探索無語言監督的視覺自監督學習（SSL）的潛力。以 OpenAI 的 C
昆侖萬維開源SkyReels

砍柴網 ? 4天前

4月21日，昆侖萬維旗下SkyReels團隊今日正式發布并開源了視頻生成模型SkyReels-V2，該模型被團隊稱為全球首個采用擴散強迫（Diffusion-forcing）框架的無限時長電影生成模型。通過集成多模態大語言模型、多階段預訓練、強化學習和擴散強迫等技術，SkyReels-V2在提示詞遵循、視覺質量、運動動
向世界開源中國技術

虎嗅網 ? 4天前

讓我們回頭來看一下明清時資本主義的萌芽。我們先來看一本書——《天工開物》，此書是萌芽的文獻典范，作者宋應星則是 “江南道路”上“勞動者與思想者、工匠與藝術家” 相結合的代表人物。他從江西出發，遍訪江南農田、作坊、礦井，走訪農人、瓷工、船匠等，身臨其境，驗證工藝細節，以“田野調查”式的科研方法，
上海人工智能實驗室開源多模態大模型書生·萬象3.0

i黑馬 ? 7天前

上海人工智能實驗室（上海AI實驗室）升級并開源了通用多模態大模型書生·萬象3.0（InternVL3）。通過采用多模態預訓練和后訓練方法，InternVL3 多模態基礎能力全面提升，在專家級基準測試、多模態性能全面測試中，10億~780億參數的全量級版本在開源模型中性能均位列第一，同時大幅提升了圖形用戶界面（GUI）智
阿里發布3D數字人模型開源引關注，微美全息多模態技術為AI虛擬人發展“添翼”

砍柴網 ? 8天前

據了解，阿里巴巴通義宣布開源發布LHM可驅動超寫實3D數字人生成模型，可單圖秒級生成超寫實3D數字人。據悉，只需輸入一張圖片、即可與這張圖片所生成的數字人化身進行低延遲的實時對話，未來，LHM有動作重現、游戲角色生成和虛擬現實探索三大應用方向。 ? AI助力數字人產業
智譜將開源32B/9B系列GLM模型

i黑馬 ? 9天前

據悉，智譜將開源32B/9B系列GLM模型，涵蓋基座、推理、沉思模型，均遵循MIT許可協議。目前系列所有模型可以通過“z.ai”訪問體驗。新版基座模型和推理模型已同步上線智譜MaaS平臺。推理模型GLM-Z1-Air/AirX-0414模型推理速度可以做到最高200Tokens/秒，且GLM-Z1-Air-0414的價
CTO 詳解理想「系統開源」：希望成為汽車圈的「DeepSeek」

極客公園 ? 9天前

理想為什么敢做「第一個吃螃蟹的人」？2025年3月27日，理想汽車董事長兼首席執行官李想宣布，從今年4月底起，將把汽車操作系統「理想星環OS」逐步開源，邀請全球開發者優化與共建生態，這也是全球首家開源汽車操作系統的車企。李想也解釋了這個決策背后的考量。他認為，智能汽車需要專用的操作系統，但每個企業都進行閉源開發會導致資
值得買科技成為首批接入智譜GLM Z1系列推理模型企業，推動AI開源生態協同創新發展

砍柴網 ? 9天前

4月15日，作為智譜華章的生態合作伙伴，值得買科技受邀成為首批接入GLM Z1系列推理模型的企業。值得買科技將在Agent產品和消費內容場景中進行模型接入，此舉將進一步提升平臺基于AI的理解能力，并以此提升用戶消費決策的效率與體驗。此外，作為生態合作伙伴，值得買科技與智譜華章還將攜手為AI
Meta開源大模型Llama 4震撼發布，阿里巴巴/微美全息聚焦加速垂直領域AI應用布局

砍柴網 ? 10天前

據消息，美國科技巨頭Meta推出了開源人工智能模型Llama 4。據介紹，該模型目前有Scout和Maverick兩個版本，是Meta迄今為止最先進的模型，也是同類產品中多模態性最強的模型。 ? 最新AI大模型Llama 4亮相Meta在聲明中表示，Llama 4是一

評論

提交建議

<td id="yyaay"></td>