TEN VAD 與 Turn Detection開(kāi)源,讓Voice Agent 對(duì)話更擬人
近日,聲網(wǎng)和RTE開(kāi)發(fā)者社區(qū)宣布,共同支持TEN VAD 和 TEN Turn Detection兩款新模型開(kāi)源。這兩個(gè)模型是基于聲網(wǎng)十余年實(shí)時(shí)語(yǔ)音深度研究成果與超低延遲技術(shù)積累所打造的高性能模型,能夠讓 AI Agent 的交互體驗(yàn)更加自然。作為開(kāi)源項(xiàng)目,任何人都可以自由使用、Fork 或?yàn)槠湄暙I(xiàn)代碼。這兩款模型也將作為開(kāi)源對(duì)話式 AI 生態(tài)體系 TEN 的核心模塊持續(xù)迭代優(yōu)化。
TEN VAD:超低延遲、低功耗、高準(zhǔn)確率的語(yǔ)音活動(dòng)檢測(cè)模型
TEN VAD 是一個(gè)基于深度學(xué)習(xí)的輕量級(jí)流式語(yǔ)音活動(dòng)檢測(cè)模型,具備低延遲、低功耗、高準(zhǔn)確率等優(yōu)勢(shì)。它通常用于語(yǔ)音輸入大語(yǔ)言模型(LLM)前的預(yù)處理步驟,準(zhǔn)確識(shí)別是否音頻中包含人聲并過(guò)濾掉無(wú)效音頻(例如背景噪音或靜音段)。
雖然它的功能簡(jiǎn)單,但作用十分強(qiáng)大:
·? 準(zhǔn)確識(shí)別音頻幀中是否有人聲;
·? 判斷一句話的開(kāi)始和結(jié)束位置;
·? 過(guò)濾掉無(wú)關(guān)音頻(背景噪音、靜音等);
這不僅提升了 STT 的準(zhǔn)確性,還能顯著降低處理成本--避免將無(wú)意義的聲音送入到 STT 流程中從而產(chǎn)生費(fèi)用。同時(shí),如果你會(huì)用到“輪次檢測(cè)(Turn Detection)”,那么 VAD 是你的必選項(xiàng),它是輪次檢測(cè)準(zhǔn)確性的可靠保障。
性能對(duì)比: 與目前常用的 WebRTC Pitch VAD 和 Silero VAD 相比,在公開(kāi)的 TEN VAD 測(cè)試集上(來(lái)自多場(chǎng)景、逐幀人工標(biāo)注),TEN VAD 展示出了更優(yōu)的效果。
在延遲方面 TEN VAD 同樣領(lǐng)先。它能快速檢測(cè)語(yǔ)音與非語(yǔ)音之間的切換,而 Silero VAD 則存在數(shù)百毫秒的延遲,導(dǎo)致人機(jī)交互系統(tǒng)的端到端延遲和打斷延遲增加。
開(kāi)發(fā)者友好: TEN VAD 已在 Hugging Face 和 GitHub 上開(kāi)源,并附帶人工精標(biāo)的數(shù)據(jù)集(TEN VAD Test Sample),開(kāi)發(fā)者可以一鍵使用進(jìn)行模型推理或模型評(píng)估。
實(shí)際應(yīng)用效果: 一個(gè)真實(shí)用戶案例顯示,使用 TEN VAD 后, 音頻傳輸數(shù)據(jù)量減少了 62%,顯著降低了語(yǔ)音服務(wù)成本。
TEN Turn Detection:讓 Voice Agent 學(xué)會(huì)“何時(shí)說(shuō)、何時(shí)聽(tīng)”
TEN Turn Detection 重在解決人機(jī)對(duì)話中最難的部分之一——判斷用戶何時(shí)停止說(shuō)話。在真實(shí)交流中,AI 需要區(qū)分出“中途停頓”與“說(shuō)完了”的差別。插話太早會(huì)打斷人類思路,太遲回應(yīng)則會(huì)顯得遲鈍、不自然。
TEN Turn Detection 支持全雙工語(yǔ)音交互,即允許用戶和 AI 同時(shí)說(shuō)話,就像兩個(gè)人交流時(shí)那樣自然。
工作原理: 它不僅識(shí)別語(yǔ)音內(nèi)容,還通過(guò)分析語(yǔ)言模式,判斷說(shuō)話者是在思考、猶豫,還是已經(jīng)表達(dá)完畢;最終讓 AI 更智能地決定“該說(shuō)”還是“該聽(tīng)”,從而讓對(duì)話更加流暢自然。該模型支持中英文,可供所有 Voice Agent 開(kāi)發(fā)者自由使用。
效果表現(xiàn): 我們?cè)诙鄨?chǎng)景測(cè)試數(shù)據(jù)集上對(duì)比了 TEN Turn Detection 和其他同類開(kāi)源模型,各模型的表現(xiàn)如下:
為什么選擇 TEN VAD 和 TEN Turn Detection?
當(dāng)結(jié)合使用這兩個(gè)模型時(shí)可以打造出更自然、反應(yīng)更迅速、成本更低的 Voice Agent:
開(kāi)源 + 高質(zhì)量
·? 基于聲網(wǎng)十多年實(shí)時(shí)語(yǔ)音深度研究經(jīng)驗(yàn);
·? 超低延遲、低功耗、高準(zhǔn)確率;
·? 完全開(kāi)源,Apache 2.0 許可證,歡迎使用、修改和貢獻(xiàn)。
更自然的對(duì)話
·? 正確處理“打斷”、“停頓”、“回應(yīng)”等人類式交互;
·? 極大提升用戶體驗(yàn)。
成本更低
·? VAD 準(zhǔn)確識(shí)別語(yǔ)音幀,有效減少語(yǔ)音識(shí)別調(diào)用量;
·? 實(shí)測(cè)結(jié)果顯示:兩者合用能大幅降低總系統(tǒng)成本。
即插即用
·? 可作為 TEN Framework 的插件模塊使用;
·? 對(duì)于已經(jīng)使用 TEN Framework 的開(kāi)發(fā)者,支持無(wú)縫集成;
·? 對(duì)于正在選型 AI Agent 框架的團(tuán)隊(duì),TEN 是具備最佳 VAD 和輪次檢測(cè)能力的選擇之一。
使用 TEN VAD 和 TEN Turn Detection 的最佳實(shí)踐
兩款模型都可以搭配 TEN Agent(基于 TEN Framework 的 Voice Agent)使用:
Hugging Face 上快速運(yùn)行(推薦)
1.登錄 Hugging Face;
2.打開(kāi) TEN Agent Demo;
3.點(diǎn)擊右上角設(shè)置 > Duplicate this Space;
4.即可用 Hugging Face 提供的 GPU 部署完整體驗(yàn)。
本地運(yùn)行(自帶 GPU)
1.登錄 Hugging Face;
2.打開(kāi) Demo 頁(yè)右上角設(shè)置 > Run Locally;
3.按照本地部署指南操作即可運(yùn)行完整。