心言集團高級算法工程師在Qwen 3發布之際再談開源模型的生態價值
4月29日,阿里新一代的大模型 Qwen 3發布。以 DeepSeek+Qwen 的中國開源組合,正在以中國開源生態“雙子星”之勢,取代過去 Llama 為主,Mistral 為輔的開源生態。 Qwen 3 發布后,Founder Park采訪了不同行業的 AI 創業 公司代表,就開源閉源如何選擇、模型的微調、模型能力瓶頸,以及大模型創業的坑等方面進行了訪問。心言集團開源布道師、高級算法工程師“左右”在接受采訪的過程中,從心言集團的實踐視角剖析了中國開源模型的崛起路徑,并分享了自己在開源生態賦能下的業務探索與技術思考。
以下為采訪實錄:
開源、閉源模型如何選擇?
左右:從我們目前的業務角度看,絕大部分(可能 90% 以上)需要使用我們自己微調(fine-tuned)的模型,因此主要是本地化部署后供線上使用。同時,對于某些特定任務,比如數據構造、數據蒸餾,或者需要利用特定大模型(如 GPT、豆包、Qwen)的能力時,我們會直接調用它們的 API。
本地部署的主要是基于 Qwen 的微調模型,根據不同的業務入口,我們會使用不同量級的模型。常用的是 7B、32B 和 72B 這幾個版本。此外,我們還有一些具身智能的業務,考慮到用戶隱私和多模態處理需求,會采用更小量級的多模態模型,比如 0.5B、1.5B 等。7B 模型主要用在對并發要求非常高,但對模型本身能力要求沒那么極致的業務場景。選用 7B 的原因有三:一是推理速度快;二是部署成本相對較低;三是在兼顧性能和速度方面,它比較適合我們的某些特定任務。
至于為什么選 Qwen 模型,主要有以下幾點考慮:
生態系統成熟度與穩定性: Qwen 的生態相對完善和穩定,包括推理框架(如 vLLM, SGLang 等很早就適配)、微調工具鏈以及其他配套設施。相比之下,有些模型(比如 DeepSeek 的早期大參數版本)生態成熟和穩定使用可能需要更長時間。
技術能力與業務契合度: 我們做的是情感陪伴、泛心理相關的業務,主要面向國內用戶。
首先排除了 Llama,雖然它生態好,但在中文能力,尤其是泛心理、情感陪伴這些垂直領域的能力上可能不足。
Qwen 對中文支持較好,并且在其預訓練數據中也包含了一些泛心理、情感陪伴相關的內容。基于這樣的模型進行微調,更容易貼合我們的業務需求。
模型系列完整性: 我們的業務涉及從 0.5B 到 72B 的多種尺寸。目前來看,只有Qwen提供了這樣完整的尺寸系列。如果不同尺寸用不同模型(比如 7B 用 Llama,72B 用 Qwen),會增加微調成本,需要在不同模型之間反復測試數據和超參數等。全系列使用 Qwen 系列,模型同宗同源,試錯成本相對較低。
開源的持續性與可信賴度: 我們之前用過零一萬物的模型,但后來他們在開源方面的策略調整了,這對我們來說比較被動。阿里(Qwen)在開源上的舉措讓我們覺得比較可靠,相信他們會持續投入開源,這對我們長期依賴其模型進行開發是重要的保障。
當前大模型的使用和微調,面臨的挑戰有哪些?
左右:分開說一下,因為我們有具身智能和線上 互聯網 業務兩塊業務。
在具身智能方面,主要挑戰是推理成本和生態適配。
成本: 為了隱私,模型需本地部署。如果用英偉達方案,端側推理卡很貴(幾百到幾千元),遠超機器人本身的成本。推理速度也可能不夠快。
生態適配: 如果換用國產算力芯片降低硬件成本,又會面臨生態不完善的問題。比如,讓國產芯片兼容最新的 Qwen 模型(特別是像 Qwen2-VL 等多模態模型),適配周期可能很長(比如一兩個月),我們等不起。由誰來做軟硬件適配(硬件廠?模型廠?我們自己?)也是個問題,我們自己做成本很高。
在線上互聯網業務方面,主要挑戰是模型能力和推理成本/延遲。微調成本相對較好。
模型能力: 我們做情感陪伴,對情感的細粒度理解要求非常高。模型需要準確捕捉用戶復雜的情感狀態。比如,用戶語音內容積極但語氣糟糕,如果只靠 ASR 轉文本,會丟失大量情感信息。這就對模型的多模態理解能力提出了很高要求(結合文本、語音、視覺等)。
推理成本/延遲: 我們的用戶量和 AI 使用量增長很快,推理成本壓力大。尤其是在高峰時段(如凌晨 0-1 點,峰值可能是平時的 3-4 倍),需要有效調度潮汐算力,以低成本覆蓋流量洪峰,同時保證模型和算力能承載。
當前模型的能力,滿足你們的業務場景需求了嗎?
左右:我們做的業務場景專注于情感、情緒化的泛心理應用場景,大多數模型廠商在預訓練或后訓練階段都不會特別關注這部分數據。另外,即使是數據合成或蒸餾,其結果和真實用戶的查詢之間仍有很大差距。這就是我們堅持要做 Post-training(后訓練/微調)的原因。
我們對基礎模型的要求主要是通用能力(General Ability),而不是特定領域能力(Domain Ability)。如果基礎模型的通用能力足夠好,我們在做 Post-training 時就更容易把它擬合到我們想要的方向。如果通用能力不行(像 2023 年那樣),即使有高質量的領域數據也很難調好。
而且需要注意,針對特定領域(如泛心理、情感陪伴)做 Post-training,通常會對模型的其他通用能力(如代碼、數學)造成一定的損害。我們的目標是把這種損害控制在可接受范圍內(比如通用指標下降 2 個點以內),同時在我們的核心領域能力上實現顯著提升(比如比通用模型高 10 個點)。最近我們也會把內部的泛心理基座模型面向社區開源,反哺開源社區,推動此方向上的技術發展。
如何看待目前以 DeepSeek、Qwen、Llama 為代表的開源模型的發展?
左右:對開源模型整體的期待是盡可能追平閉源頂尖模型(如 Claude, GPT-4/4o)。雖然現在還沒有完全追上,但開源模型比閉源更 Open,至少能拿到權重。
更具體的期待是希望它們能 release 更多的技術細節。Llama 3 和 DeepSeek 的技術報告相對詳細,希望 Qwen 也能更開放地分享技術路線、探索出的數據配比等。
從差異性看:
DeepSeek 更激進、理想化,在 MoE、原生多模態、代碼等方面探索較前沿。
Qwen 和 Llama(Qwen 早期 follow Llama,現在已逐漸超越)更注重社區和通用性,需要考慮更廣泛的用戶和場景,技術選型上可能相對穩健。
這種差異化定位在開源社區里是正常的。
覺得當前大模型創業最容易被忽視的坑是什么?
左右:我覺得一個比較大的問題是模型與產品的適配度,以及對 AI 在產品中角色的理解。
很多人認為 AI 來了,可以用它重做一遍舊需求,或者簡單地把 AI API 接到舊產品上。但我認為 AI 更多是后端能力,是處理信息的工具,而不是直接交付結果的前端界面。
現在很多產品給用戶的感覺是直接在和一個聊天機器人對話。但在我看來,AI 應該藏在后端,用來深度處理用戶的輸入,實現真正的個性化,然后再交付結果。
例如,在情感陪伴中:
用戶發來語音,AI 不僅是轉文本,更應該分析語氣、語調,并將這些情感信息融入 Prompt。
AI 應該分析對話上下文的邏輯、情緒變化,讓下一輪的回復體現出這種個性化,而不是千篇一律地遵循某個 System Prompt。
很多開發者追求簡單的「端到端」,認為大模型能簡化一切。但在很多領域(尤其情感),原本需要復雜處理的環節,現在依然需要,甚至可以借助 AI 做得更精細。直接用 AI 替代這些環節,可能導致產品缺乏深度和個性化。
我認為正確的模式應該是 「X + AI」**,而不是 「AI + X」。核心是挖掘和理解用戶需求(X),然后思考如何用 AI 更好地解決這個需求。而不是有了 AI 技術,再去找一個場景(X)去套用。
一個重要的觀察指標是用戶留存。很多 AI 產品(如一些角色扮演應用)留存很差,這往往意味著產品沒有抓住用戶的真實痛點,個性化做得不夠好。如果你的產品是基于真實需求(X)構建的,留存通常不會是核心問題。現在很多產品可能是在做一個偽需求。
隨著Qwen、DeepSeek等中國開源模型在國際舞臺嶄露頭角,一場由技術生態驅動的全球化進程正在加速。心言集團的實踐表明,開源不僅為中國企業提供了彎道超車的技術路徑,更創造了“全球協作-垂直創新-生態反哺”的良性發展模式。在這場靜水深流的技術革命中,心言集團也將聚焦泛心理發展的AI化與具身化,繼續以開源為舟,以創新為帆,駛向情感計算領域的星辰大海。