微軟開源音頻模型Vibe Voice1.5B 可連續(xù)合成90分鐘語音
8月26日,微軟研究院在美國宣布開源創(chuàng)新音頻模型VibeVoice-1.5B,該模型一次性可連續(xù)合成90分鐘超長逼真語音,顯著超越此前多數(shù)模型60分鐘的上限。根據(jù)公開資料整理,VibeVoice-1.5B在語音合成時長、音色穩(wěn)定性及語義連貫性方面實現(xiàn)多項突破。傳統(tǒng)模型在30分鐘后常出現(xiàn)音色漂移、語義斷裂等問題,而VibeVoice-1.5B通過架構(gòu)優(yōu)化有效緩解上述缺陷,為長音頻內(nèi)容創(chuàng)作、有聲讀物及虛擬助手等場景提供更穩(wěn)定的技術(shù)支持。
文章評價

發(fā)布
發(fā)布