阿里巴巴,投出 AI 視頻生成賽道最大單筆融資
近日,AI 視頻生成公司「愛詩 科技 」完成 B 輪融資,總金額超過 6000 萬美元。
該輪融資由阿里巴巴領投,達晨財智、深創投、北京市 AI 基金、湖南電廣、巨人網絡和 Antler 跟投。 據了解,這也是國內視頻生成領域單次最大融資額。
愛詩在融資和增長上的猛勢,是如今國內視頻生成賽道集體狂飆的一個縮影,目前愛詩旗下產品 PixVerse 的全球用戶已經邁過 1 億大關。就在 4 個月前,這個數字還是 6000 萬。
同樣起飛的還有 商業 化。愛詩科技創始人兼 CEO 王長虎告訴《智能涌現》, 公司產品的訂閱收入已經覆蓋成本。
另一位視頻生成領域頭部玩家,快手的財報顯示,2025 年 Q2,旗下可靈 AI 的營收已經超過 2.5 億元,占快手總營收的 4.8%。
然而,僅僅一年前,由于 Sora 的掀桌、大廠的入局,AI 視頻生成 創業 ,一度不被看好。
《智能涌現》曾在《楊立昆、朱嘯虎不看好的賽道,正在海外悄悄賺錢》一文中提到,2024 年初,不少 投資 人的共識是:視頻模型 ROI 短時間無法打正,以及初創公司會像語言模型賽道一樣,被 2-3 家大廠淘汰。
成立在 2023 年 4 月的愛詩科技,對市場的不看好深有體會:彼時的視頻生成還是非共識,創業公司資源有限,創始人王長虎和謝旭璋并非最受資本歡迎的 " 天才少年 "。
在愛詩科技 CEO 王長虎看來,愛詩回到舞臺中央,恰恰因為堅持了 " 不變 ":
從第一天起,團隊就將視頻生成作為確定性的機會,從自研模型到產品化,從未偏離主線;
至于產品,C 端則是團隊一直看好的方向——愛詩旗下的產品,AI 視頻創作平臺 PixVerse(海外)和拍我 AI(國內),主打為普通用戶提供低門檻的 AI 視頻創作工具。
其特效模板通過 " 提示詞封裝 ",將視頻生成復雜的制作過程簡化為 " 一鍵生成 "。
2025 年 8 月 27 日,愛詩發布的新一代視頻生成模型 PixVerse V5,優化了生成速度、視覺質量、指令遵循等能力。
與此同步上線的,是一款面向 C 端用戶的 "Agent 創作助手 ",沒有視頻創作基礎的用戶,也能用現有的模板庫和極為簡單的指令,創作出一段視頻。
△使用 "Agent 創作助手 " 和內置的模板創作視頻。圖源:作者試用
△ " 拍我 AI" 生成的寵物視頻。圖源:作者試用
從不被看好到拿下最大單筆融資額,愛詩做對了什么?
成功逆襲,愛詩到底做對了什么,王長虎總結出了兩點:
第一,無論用戶還是團隊,都不盲目燒錢擴張。
王長虎告訴我們,過去半年內,愛詩用戶規模從 6000 萬增長到一億, 比起投放,靠產品能力本身去做聰明的增長,是更為行之有效的方法。 比如,2024 年 11 月," 毒液變身 " 等展示模型能力的特效模板,迄今已為 PixVerse 帶來了過百億的曝光量。
第二,不盲目對模型做 Scaling(擴大參數規模)。
在愛詩科技看來,Scaling Law 仍然適用于當下的視頻生成模型。但對于資源有限的創業公司而言,模型訓練不允許失敗,試錯成本遠高于大廠。
這意味著,每一次的模型訓練,愛詩都需要保證模型質量的前提下,降低訓練成本,同時規劃更為精細化的迭代方向。
愛詩的經驗是, 每一次模型和產品的迭代,都要貼著用戶的需求走。
比如,團隊發現,不管在專業創作還是短視頻領域,大多數單鏡頭視頻的長度都在 10s 以內,廣為傳播的視頻長度在 10 秒左右,"60s 一鏡到底 " 不是用戶的核心需求。
因此愛詩把資源集中在提升視頻生成的速度、質量和指令遵從優化上。
基于 " 分布匹配蒸餾 " 技術,愛詩在行業中率先將視頻生成速度從 " 分鐘級 " 壓縮到了 " 秒級 "。為了保證視頻生成的質量,團隊在訓練過程中引入特征自約束損失,穩定了視頻生成的畫質。
這兩點經驗,都指向了同一個方向: 創業公司如何更高效地利用有限的資源,建立自己的優勢。
不過,資源有限下的遺憾也是存在的。讓王長虎最為扼腕的,是沒有全球最早訓練出對標 Sora 的模型。
" 早些年,有些錢我們沒有拿。" 他告訴《智能涌現》," 但回頭看,我們應該多儲備一些資金,盡可能地去拿錢,更早把模型做出來。"
當然,Timing(時機)對創業者而言同樣重要。
2023 年 4 月,愛詩成立在一個視頻生成還是非共識的時間點。
非共識創業的難點是擺在明面上的。王長虎回憶,當時,市面上還不存在高性能的視頻生成模型,小型創業公司常被市場質疑的一點是:是否有訓練高性能視頻生成模型的能力和資源。
但另一面,非共識創業,也讓愛詩免受行業 FOMO(害怕錯過)情緒的負面影響。王長虎告訴我們:" 這反而讓我們在早期處于一種更健康的狀態: 估值與能力相匹配,發展節奏更扎實,而不是被高估值所左右。"
再者,比別人更早,也意味著技術和產品上的先發優勢。2024 年下半年,隨著 Sora 將 DiT 架構變為視頻生成領域的技術共識,海內外不少大廠和初創公司才接連入局,發布視頻生成模型。
彼時,PixVerse 的全球用戶規模已經達到 1000 萬,并且已經實現了規模化收入。近期發布的視頻生成模型 V5,也在獨立測評平臺 Artificial Analysis 的最新測試中,登頂全球圖生視頻榜單,在文生視頻榜中位列全球第二。
Artificial Analysis 的最新測試
視頻生成界,也會誕生 "Canva" 和 "Photoshop"
視頻生成的 游戲 ,到底有沒有創業公司的機會?這是創業以來,王長虎和團隊最常被問的問題。
愛詩幾乎用了 2024 年一整年,來回答這個問題。那一年,他們面對了 Sora 的突襲,快手和字節的輪番傾軋。
但事實證明,在一個相當初期的賽道,機會沒有獨屬于強者。2024 年 7 月,緊接著可靈 AI,愛詩發布了 PixVerse V2,成了國內首個發布可實際使用的 DiT 視頻模型的創業公司。
至于未來的格局,王長虎判斷: AI 技術并不是簡單把抖音等短視頻平臺中的內容替換成 AI 內容,而是帶來了全新的交互方式:
" 一旦視頻能實現實時或準實時生成,用戶在觀看內容的同時,也能即時調整、生成新的內容。" 在他看來,視頻行業全新的交互邏輯,注定會像 " 短視頻孕育出抖音 " 一樣,孕育出新的國民級產品。
2025 年,視頻生成賽道的競速,已經從 " 比誰先復刻出 Sora",拉到了產品差異化競爭。
一個明顯的跡象是, 視頻生成領域的不同玩家,逐漸分散至風格、用戶畫像、功能各異的細分領域。
比如,前商湯秒畫負責人劉宇成立的 Vivix Group Limited,其產品 TipTap 聚焦在 AI Porn 的生成;前光年之外聯合創始人曹越創業做的 Sand AI,則跳出了主流的 DiT 技術路線,采用自回歸路線,實現了視頻的無限擴展生成。
愛詩聚焦的用戶,是沒有視頻制作技術的普通人。王長虎對我們表示,由于視頻創作門檻高,加之工具供給不足,目前 95% 的人的視頻創作需求還沒被滿足。
他將目前的產品比作視頻生成界的 Canva, " 更大眾,更平權 ",而其他視頻生成產品則是 Photoshop 和 Figma,服務的是專業創作者。
在外界的視角中,2024 年 11 月以來," 美人魚變身 "" 毒液變身 " 等特效模板的全球爆火,是愛詩押對的幸運一棋。
△ " 拍我 AI" 提供的視頻生成模板。圖源:" 拍我 AI" 官網
但王長虎認為,特效模板走紅,是遲早的事," 模板能夠將用戶的創作門檻降下來,是團隊自然而然做出的決策。"
如今,為 C 端用戶提供視頻生成模板,也是愛詩產品生態中重要的一部分。在社區中,不僅有官方制作的模板,還有不少來自用戶自發的創作。比如,拍我 AI 上,一款用戶做出的 " 衣柜變裝 " 模板,獲得了百萬級以上的瀏覽量。
產品的定位,也決定了愛詩目前最看重的幾個指標: 用戶增長、留存以及社區行為活躍度(如 UGC 模板創作)。
視頻生成行業的發展,還未到終局。著名風投機構 BVP 在 2025 年 AI 報告中提到,在接下來 1 年中,視頻生成領域的格局,大概率會像如今的語言模型那樣塵埃落地。
誰能覆蓋成本、穩步擴大用戶規模,誰就更有可能留在牌桌上。
來源:36氪