上交大冷靜文:模型發展需要和芯片、系統廠商協同
作者丨朱可軒
編輯丨陳彩嫻
近期,上海交通大學與 AI Infra 創企魔形智能聯合研究團隊在由 IEEE 計算機協會主辦的 HPCA 2025(International Symposium on High-Performance Computer Architecture)會議上,發表了論文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》。
論文提出的 VQ-LLM 框架通過分層代碼本緩存和代碼本中心計算引擎兩大核心技術,成功實現了超過 50% 的推理延遲降低,性能超越同比特寬度的傳統逐元素量化方法。
這一突破為向量量化(VQ)技術的實際部署提供了可行方案,在保持大語言模型高精度的同時,顯著提升了推理效率。
當前,業界前沿在大模型壓縮方面涌現出不少研究成果,不過很大一部分都聚焦于單元素量化,而向量量化的好處則在于,極限、等效的比特壓縮位寬會低很多,這也是論文研究所考慮的核心點。
而這篇論文工作的主要負責人為上海期智研究院 PI、上海交通大學計算機科學與工程系教授冷靜文,他于 2010 年 7 月畢業于上海交通大學,獲得學士學位。此后,其又在 2016 年 12 月從德州大學奧斯汀分校電子與計算機工程系畢業并獲得博士學位,博士期間的主攻方向為 GPU 處理器的體系結構優化。
當前,冷靜文和團隊的主要研究興趣點還聚焦在芯片架構和硬件互聯方面,包括數據流的芯片內部設計以及類似于超節點的高速互聯域的硬件設計。此前,其團隊也發布了基于數據流和底層算子的一系列優化組件。
DeepSeek?之后國產芯片實現 FP8 的相關問題引發了業內廣泛關注,對此,冷靜文表示,“之前沒有大模型的時候,大家覺得芯片里的算力已經夠用了,再做 FP8、FP4 算力就冗余了,所以沒有像英偉達那樣提前把低位寬的算力把它堆上去,這一代的芯片都可能有同樣的問題?!?/p>
而對于國產芯片的發展,他認為,“如果大家只是照抄英偉達的設計方法會永遠落后于他們,還是得有一些原創性的思考?!边@也是冷靜文團隊側重于研究數據流芯片的思考之一。
在他看來,“從國內角度來看,GPU 實際上已經存在幾十年了,紅利快走到盡頭了,再往后芯片的架構以及芯片的編程方法怎么去設計,我們想通過數據流的方式來解決問題?!?/p>
以下是 AI 科技評論與冷靜文的對話:
向量量化與大模型壓縮
AI 科技評論:你們團隊和魔形智能合作在 HPCA 2025 上發表了一篇論文工作,可以介紹一下您和魔形智能此次合作的這篇論文工作嗎?你們最初思考去做這篇工作的出發點是什么?
冷靜文: 我們認為現階段大模型很重要,并且大模型的計算量比較大,消耗的存儲空間也比較大,所以現在有個很熱門的研究方向是做大模型壓縮,有一系列的代表性的工作是在大模型的量化上,比如把單個元素從原來的 FP16 壓縮到 4 比特的 FP 或者 4 比特的 INT,在這個壓縮方法里很多人沒有考慮到的點在于不同的元素之間可能存在一定的相關性,這個相關性如何挖掘就是我們的研究動機。
我們做的是原來在向量數據庫中的向量量化,把一個 Vector 劃分成更小的 Group,然后去挖掘 Group 內元素的相關性,這樣就可以更高效地進行壓縮。
而向量量化相比于原來單個元素量化的好處在于,它極限、等效的比特壓縮位寬可能比原來的單元素量化要低很多,我們分析包括業界也有不少人指出來,單元素的量化做到 4 比特差不多就基本上做到盡頭了,那這些就要用向量量化,向量化現在做到兩三個比特基本上還是能用的,改進它的一些量化算法。
AI 科技評論:在這篇論文工作中您和魔形智能的團隊參與其中分別負責了哪部分內容?
冷靜文: 我們交大團隊主要提出了這個想法,后面包括實驗機器以及實驗環境、模型等都是和魔形智能的團隊合作,雙方合作比較緊密,我們也簽了一個校企合作的項目,在大模型的基礎設施這塊一起做前沿研究。
https://arxiv.org/abs/2503.02236
AI 科技評論:您過往的論文工作幾乎都是和系統研究相關的,您的這些經驗對于當前 LLM 相關論文工作來講,能提供什么樣的參考?
冷靜文: 系統的很多優化方法都可以來指導大模型的設計,比較重要的方向是找到系統當前的一些瓶頸,然后結合模型的特點來進行聯合設計,這當中我們做的工作是去挖掘了一下大模型的參數,或者說它的 KV 緩存里細粒度不同的部分之間存在什么內在關聯,怎么利用它們的相關性去做到比較極致的壓縮,這是可供參考的。
未來顯存容量、通信帶寬也都是瓶頸的話,那怎么結合這些瓶頸去讓模型更好地適配系統,前段時間大家討論比較激烈的 NSA 工作也是在這個方向上的。
AI 科技評論:具體來講,您覺得 NSA 這一工作有什么亮點?給行業帶來了哪些價值?
冷靜文: 之前大家覺得稀疏是很重要的,只不過方法是需要去做靜態的基于規則的裁剪、減枝等,NSA 的價值在于就把稀疏設計原生帶入到模型的架構中去,有點像 MoE架構,他也是第一個在注意力機制上能夠做端到端學習的工作,說明我們之后設計模型的時候,需要把效率優先的原則帶入到模型結構里去。
AI 科技評論:你們的研究為向量量化技術的實際部署提供了可行方案,在保持大語言模型高精度的同時,顯著提升了推理效率,具體是怎么解決的?解決推理延遲問題的過程中你們也沒有遇到過難點問題?
冷靜文: 整個工作從一開始做 motivation 到后面的具體實現,都還是比較順利的,因為我們先抓了一個點,先確定向量量化到底是不是比原來的單元素量化更有價值,我們在算法領域找到佐證,自己做了一些實驗也得到比較好的效果,后面的系統實現都是我們的強項,沒有特別難的問題,最開始的難點在于怎么樣找到用向量量化的方法來壓縮大模型。
AI 科技評論:您觀察看來,海內外還有哪些是比較有價值的探索向量量化突破的前沿工作?和你們的做法又有什么差異?目前在向量量化這塊的研究方面還存在哪些優化空間?
冷靜文: 目前海內外向量量化用在大模型壓縮里的工作分成兩種,一種是只做壓縮,然后計算的時候還是恢復成原來的方法來做計算,還有一種是直接基于壓縮后的方式來做計算。我們當前還只是做到了壓縮,但是在壓縮和計算的聯合優化上我們還要繼續做,然后現在其實量化只是用在了推理上,需要考慮是不是可以把量化也和訓練的過程集成起來。
AI 科技評論:你們的工作目前是已經從學術成果落地到行業內了嗎?感覺目前業界的解法和學術界最前沿的研究間還存在多大差距?
冷靜文: 目前論文工作內容模型那邊已經正在落在相關的產品里面。但是另外一個角度來講,學術界關注前沿研究,更具有前瞻性,要比行業落地早幾年??赡墁F在做的東西如果五年后大家覺得有用再去考慮落地,這會更有前瞻性一些,以此為目標去做學術研究,而不是說現在什么火就去做什么。
DeepSeek 帶來的思考
AI 科技評論:您認為 DeepSeek 這種 671B 的 MoE 模型量化起來會有什么難點?這么大參數的稀疏模型該如何在盡量減少精度損失的同時提升推理效率?你們的論文工作對此有什么參考價值嗎?
冷靜文: 目前 DeepSeek 最大的難點在于要跑起來 671B 參數的模型,對機器要求比較高,量化起來速度比較慢,所以我們一般是在小一點的模型上去驗證一下方法的有效性。
其中有個比較重要的點在于,671B 的 MoE 模型的每個專家不是每次推理都被會被激活的,現在的一些量化方法其實需要有一些專家被激活后,拿到中間結果后再進行量化壓縮,所以最大的問題在于這種 MoE 模型不是每次都激活專家,那么怎么去量化算法,怎么去考慮因素進行相應的調整,除此之外,DeepSeek 的模型跟之前的其他模型也沒有太大區別。
AI 科技評論:您如何評價 DeepSeek 訓練大模型是軟硬一體協同的?包括現在有觀點認為,模型其實還是需要根據現有的硬件結構做調整的,您怎么看?
冷靜文: 我覺得模型在結構上沒有太多根據硬件結構做的思考,不過也有一些底層思考是在軟硬件一體方面,現在的模型架構告訴我們可以通過做 Attention 來挖掘一些有效的信息,包括訓練和當前的 prompt 里面的信息,Attention 是最主要的方式。
那么形成 Attention 的計算方法,我們現在還是要逐個元素做內積,但是需要考慮到這是不是最有效的方法,有沒有更高效的方法去做 Attention 的,比如說,我們現在考慮的就是基于向量量化,如果多個向量的 Group 之間沒有快速做 Attention 的計算方式,不一定要逐個元素相乘然后做內積,這方面上海交大也提出過塊狀稀疏的模型架構,在未來會更高效一些。
AI 科技評論:前陣子關于 MaaS 的討論也很激烈,您如何評價這個問題?這是否只能是大廠的生意,對于小廠來講注定虧損?
冷靜文: 我看了 DeepSeek 自己估算的成本,他們給出來的方案能夠實現比較低的成本,我覺得從歷史的經驗來判斷,最終要商用肯定是有利潤空間的,只是說最終硬件不一定是以現在這種 GPU 的方式來部署,有沒有更高效的硬件部署方法,類似于大家之前用蘋果 Mac 的 studio,它有一個很大的 unified memory,用這種硬件架構來部署,通過一個很大的 memory 降低較大成本。
所以這當中的優化空間是有的,但都是從商業成本的角度去考慮,甚至包括現在大家做的以存代算的工作,因為不僅要做 serving,Cache 那層也要做好,不是說每一個請求都要算的,中間還要命中一些歷史結果,以存換算也是這當中可以優化的點,如果能把模型的部署成本降到極致是能做下去的。
AI 科技評論:小廠能夠復現DeepSeek官方的部署優化方案比如專家并行(Expert Parallelism,EP)的話,是否能有一線生機?現在也有廠商已經做到了,您覺得當中會有什么難點?
冷靜文: 專家并行要做到多 GPU 之間的通信比較難,現在不做 EP,做原來的 DP、TP 等都有官方寫好的集合通訊庫來調用,做 EP 的話有很多點對點的通信,通信和計算之間的 Overlab 都會比較難,而且英偉達本身也還沒有推出比較好的方法來實現 EP,導致現在大家都不太好做,而且目前大家也都是基于英偉達的生態來做,沒有國產生態可以做這些。
AI 科技評論:DeepSeek 也開源了一系列代碼庫,幾乎都在圍繞英偉達 GPU 展開,這給你們的研究工作帶來了哪些有價值的參考?
冷靜文: DeepSeek 開源的一系列內容中我比較關注算子生成這一步,因為主要聚焦在單個 GPU 的研究,這當中有些借鑒意義。另外,在多 GPU 的編程上我們團隊目前也在開展一些研究,不是基于 GPU 的設計來。
我們團隊的芯片架構研究主要集中于數據流芯片,不是做 GPU 上的控制流的方法,海外像 Cerebras 做的大芯片、Tenstorrent 的芯片也是類似于數據流的,但是國外大家都能買到英偉達的 GPU,所以大家不一定會去購買他們,而從國內角度來看,GPU 實際上已經存在幾十年了,紅利快走到盡頭了,再往后芯片的架構以及芯片的編程方法怎么去設計,我們想通過數據流的方式來解決問題。
國產芯片的機會點
AI 科技評論:你們目前為止在數據流方面都做了哪些相關工作?已經解決了哪些業內難點問題?
冷靜文: 我們對標于 GPU 的 CUDA 編程生態,用的抽象機是基于單指令、多線程的架構,我們可以在 GPU 上做很多開發,它有很好的生態。我們做的數據流芯片是在先考慮了抽象機的設計,我們也發表了一篇中文期刊文章,闡述我們在數據流的抽象機上用基于代碼塊的、比較細膩度的數據流方式,同時能夠去兼容 CUDA 的抽象機,我們能解決的問題是未來設計 AI 芯片的話,AI 芯片底下的抽象模型不一定非得做成英偉達 GPU 的架構,而是可以用代碼塊的數據流方式來解決。
https://engine.scichina.com/doi/10.1360/SSI-2024-0343
AI 科技評論:數據流芯片的設計研究有何難點?
冷靜文: 數據流芯片造出來是比較好造的,關鍵難點是在這上面怎么樣去建立一個可以對標 CUDA 的生態,我們的方法是從底層的抽象機開始入手,去構建抽象模型,然后基于此去做編程語言上的工作和編程工具的開發。
目前來看,數據流的學習成本是比較高的,數據流做起來編程方法和思考路徑和原本的控制流馮諾伊曼架構是不一樣的,門檻比較高,所以后續怎么較低學習成本是現階段最需要思考的問題。
AI 科技評論:大集群優化也是個比較難的系統問題,在您看來,這當中有什么難點?你們有在做這方面的研究嗎?解決了什么問題?
冷靜文: 現階段萬卡集群、千卡集群都已經研究得比較好了,主要就是做容錯以及高效的 4D 并行等,現在大集群的演進方向,GPU 的高速互聯域會做得越來越大。
就像英偉達的?GB200 的 NVL72 或者 NVL144 這種方案,就是在一個高速互聯域里面集成 72 個 GPU 或者集成 144 個 GPU,這種大集群國內目前還是買不到的,一機八卡的 H100 國內有,大家可以在上面研究,多臺服務器做 Scale-out 做成萬卡也都可以,但是英偉達不是在這個技術路線上演進,他們做的有點像華為提的超節點概念,這種節點的優化未來會變得更加重要。
AI 科技評論:華為云前段時間也發布了 CloudMatrix 384 超節點,號稱能夠與英偉達的 NVL72 比肩,在您看來 CloudMatrix 384 有什么亮點?帶來了哪些突破性進展?給國內生態帶來了哪些助力?
冷靜文: 他們能和英偉達 NVL72 幾乎同步發布,說明國內的思考是走在國際前列的。技術上的亮點在于互聯的結構,華為做了一個統一的、互聯的結構,可以讓碎片化的通信統一,在編程生態上會有不少的幫助,不過我們現在也沒有拿到這個超節點去使用,后續可能會在上面做更多研究。
AI 科技評論:目前,只有英偉達的芯片才能靈活實現 FP8 訓練并收斂,國產芯片仍掙扎在 BF16/FP32 收斂困難的路上,新的 FP8/BF16/FP32 混合訓練又給國產芯片設計加了一道新難關,從您這段時間的觀察來看,國產芯片在 DeepSeek 之后突破進展如何了?還有哪些難題亟待突破?
冷靜文: 目前國內做AI芯片的包括兩條路線,一種是類 CUDA 的架構,還有一些就是以相當于 CPU 去擴展做 CND的方法,如果大家只是照抄英偉達的設計方法會永遠落后于他們,還是得有一些原創性的思考,做一些提前布局,可能在每一代的英偉達芯片里面大家都沒有太關注過 BF16、FP16 這些,因為之前沒有大模型的時候,大家覺得芯片里的算力已經夠用了,再做 FP8、FP4 算力就冗余了,所以沒有像英偉達那樣提前把低位寬的算力把它堆上去,這一代的芯片都可能有同樣的問題。
另外是在編程生態上,因為英偉達的生態比較開放,有很多開源社區,很多學者都在里面做優化,包括 DeepSeek繞過 CUDA 用?PTX?也是英偉達基于底下開放的虛擬指令集實現的。但是國產大家還是停留在推自己的方案,不希望讓其他人去了解底下的設計、優化細節,所以我覺得國產要做起來,硬件是護城河,但是開放的生態也要做起來。
AI 科技評論:目前還有哪些系統問題是比較難且亟待解決的?你們后續的研究重點主要會聚焦于哪一塊?
冷靜文: 系統方面目前比較難解決的問題一是在于大模型要做成 Agent 智能體的方式,會涉及到多次的調用,這當中會涉及到系統如何去支持的問題,包括思維鏈疊加上強化學習搜索的方法未來如何去做系統支持,但我們后續的研究重點可能不能那么側重于系統,未來還是想聚焦于做芯片架構和硬件互聯,包括數據流的芯片內部設計以及類似于超節點的高速互聯域的硬件設計,目前這種硬件設計還在開發過程中。
AI 科技評論:那您覺得國內芯片廠商、系統廠商能給模型廠商帶來哪些助力?DeepSeek 之后,國內該如何發揮各自所長推動大模型進一步發展呢?
冷靜文: 未來芯片、系統和模型廠商的協同會在兩個方面。一是在新的模型架構的設計上,包括 MoE、NSA 模型以及塊狀稀疏模型、記憶體立方模型等等,這些在學術界都有新的進展,但是要做訓練的話,還有很多文本、訓練集還有機器規模的問題,現在學術界還做不到,所以做芯片、系統的還可以結合新的模型架構來嘗試一下。另外就是繼續推模型的小型化、輕量化,模型廠商可以反饋給芯片廠商一些新的設計思路和理念,可以進一步推動降本。
AI 科技評論:近期,英偉達 H20 出口受限也引發了大量關注,如果連最低端的英偉達芯片都進不來,國內會受到什么樣的影響?針對于此,國產芯片廠商又能做些什么?
冷靜文: 大家買 H20 還是在于一是 CUDA 生態,二是 H20 有很高的帶寬,在大模型的推理場景能夠發揮很好的作用,這給國內芯片廠商帶來兩個啟發,首先要注重于生態的構建,做一個統一的開源生態,另外是要解決 HBM 的問題,我們需要更好的、高帶寬的內存設計方法,比如可以考慮類似于 CXL 的互聯方式可不可以去代替當前的 HBM,或者做 3D 堆疊芯片,在芯片上堆疊大的 SRAM 緩解 HBM 的需求。 雷峰網雷峰網 (公眾號:雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見 轉載須知 。