出門問問聯(lián)合發(fā)布全球最大多領(lǐng)域中文語音識別數(shù)據(jù)集WenetSpeech
2021-10-26 09:18:15AI云資訊917
日前,中國領(lǐng)先的人工智能公司出門問問與西北工業(yè)大學(xué)音頻語音和語言處理研究組(ASLP Lab)、希爾貝殼聯(lián)合發(fā)布1萬小時多領(lǐng)域中文語音識別數(shù)據(jù)集 WenetSpeech,在騰訊會議天籟實驗室、華為昇思 MindSpore、 西安未來人工智能計算中心等機構(gòu)大力支持下,該數(shù)據(jù)集目前已經(jīng)開放下載。
WenetSpeech 介紹
近十年以來,在深度學(xué)習(xí)的推動下,語音識別技術(shù)和應(yīng)用均取得了突飛猛進的發(fā)展,搭載語音識別技術(shù)的相關(guān)產(chǎn)品和服務(wù),諸如語音搜索、語音輸入法、智能音箱、智能電視、智能穿戴、智能客服、機器人等已經(jīng)廣泛應(yīng)用到我們生活的方方面面。但在現(xiàn)有的中文語音識別研究中,由于開源中文語音數(shù)據(jù)集數(shù)據(jù)量少,場景單一,缺乏挑戰(zhàn)性,不能反映研究模型在大數(shù)據(jù)量和復(fù)雜場景下的泛化能力,例如,當(dāng)前最大的中文普通話開源數(shù)據(jù)集 AIShell-2,包含1000小時的朗讀風(fēng)格錄制數(shù)據(jù),主流識別系統(tǒng)在該數(shù)據(jù)的測試集上獲得的錯誤率低至5.3%左右。工業(yè)界往往使用更大規(guī)模的內(nèi)部數(shù)據(jù)進行研究,而學(xué)術(shù)界無法獲取這些數(shù)據(jù)進行研究,這導(dǎo)致了中文語音識別研究在學(xué)術(shù)界和工業(yè)界的嚴(yán)重割裂。另一方面,當(dāng)下研究的熱點無監(jiān)督學(xué)習(xí)和自學(xué)習(xí),在中文語音識別領(lǐng)域,也缺乏公開標(biāo)準(zhǔn)的大數(shù)據(jù)集的支持。
今年以來,F(xiàn)acebook 發(fā)布面向監(jiān)督學(xué)習(xí)的5萬小時的英文 audiobook 數(shù)據(jù)集 Multilingual LibriSpeech;SpeechColab 發(fā)布1萬小時的多領(lǐng)域英文數(shù)據(jù)集 GigaSpeech。受這些工作的啟發(fā),同時中文語音識別研究也迫切需要一個標(biāo)準(zhǔn)的大規(guī)模多領(lǐng)域的數(shù)據(jù)集,為此出門問問與西北工業(yè)大學(xué)音頻語音和語言處理研究組(ASLP Lab)、希爾貝殼設(shè)計開發(fā)了 WenetSpeech 數(shù)據(jù)集。
WenetSpeech 除了含有 10000+ 小時的高質(zhì)量標(biāo)注數(shù)據(jù)之外,還包括2400+ 小時弱標(biāo)注數(shù)據(jù)和 22400+ 小時的總音頻,覆蓋各種互聯(lián)網(wǎng)音視頻、噪聲背景條件、講話方式,來源領(lǐng)域包括有聲書、解說、紀(jì)錄片、電視劇、訪談、新聞、朗讀、演講、綜藝和其他等10大場景,領(lǐng)域詳細統(tǒng)計數(shù)據(jù)如下圖所示。
數(shù)據(jù)收集
WenetSpeech 所有的數(shù)據(jù)均來源于網(wǎng)絡(luò),其中三分之二的數(shù)據(jù)來自 Youtube,三分之一來自 Podcast。
對于 Youtube 數(shù)據(jù),我們?nèi)斯みx擇含有嵌入式硬字幕(字幕嵌入在視頻流中,非外掛字幕)的視頻資源,并構(gòu)建了如下圖的基于 OCR 的系統(tǒng)進行數(shù)據(jù)挖掘,流程如下:
1.文本檢測,在當(dāng)前視頻幀上進行文本檢測。
2.字幕位置校驗,判斷檢測到的文本區(qū)域是否為合法的字幕區(qū)域。
3.字幕切換檢測,已得到字幕位置和區(qū)域,在連續(xù)的視頻幀上對該區(qū)域進行檢測,直至該區(qū)域的字幕變化為止,得到字幕的起始和結(jié)束時間。
4.文本識別,將字幕區(qū)域進行 OCR 識別,得到文本。
5.將3中對應(yīng)時間的音頻提取出來,結(jié)合4中的文本,即得到字幕文本和該文本對應(yīng)的音頻,也就是語音識別訓(xùn)練中所需的文本和語音的候選平行數(shù)據(jù)。
下圖中給出該 OCR 系統(tǒng)在不同場景下的幾個典型示例。圖中綠色的框為檢測到的所有文字區(qū)域,紅色的框為判定為字幕的文字區(qū)域,紅色框上方的文本為 OCR 的識別結(jié)果。 可以看到,該系統(tǒng)正確的判定了字幕區(qū)域,并準(zhǔn)確的識別了字幕文本,同時經(jīng)過我們測試,發(fā)現(xiàn)該系統(tǒng)也可以準(zhǔn)確判定字幕的起始和結(jié)束時間。
對于 Podcast 數(shù)據(jù),WeNet使用國內(nèi)最好的商業(yè)語音識別系統(tǒng)之一,對 Podcast 數(shù)據(jù)進行切分,并生成切分后音頻和其所對應(yīng)的文本作為候選平行數(shù)據(jù)。
數(shù)據(jù)校驗
OCR 字幕識別和 ASR 語音轉(zhuǎn)寫生成的候選平行數(shù)據(jù)中不可避免的存在一些錯誤,如人工字幕本身有錯誤,字幕時間不準(zhǔn),OCR 識別錯誤,轉(zhuǎn)寫錯誤等。為了檢測該錯誤,WenetSpeech 中提出一種基于端到端的自動標(biāo)注錯誤檢測算法,如下圖所示。該算法首先根據(jù)候選平行數(shù)據(jù)的文本(ref)構(gòu)建一個一個強制對齊圖,該圖中允許在任意位置進行刪除、插入和替換操作。然后將候選平行數(shù)據(jù)的語音輸入到該圖進行解碼得到識別結(jié)果(hyp),最終計算 ref 和 hyp 的編輯距離并做歸一化從而得到該候選平行數(shù)據(jù)的置信度。當(dāng)候選語音和文本一致性高時,ref 和 hyp 一致性高,置信度高,反之,當(dāng)候選語音和文本一致性低時,置信度低。
WenetSpeech 中選取置信度>=95%的數(shù)據(jù)作為高質(zhì)量標(biāo)注數(shù)據(jù),選取置信度在0.6和0.95之間的數(shù)據(jù)作為弱監(jiān)督數(shù)據(jù)。關(guān)于該算法的詳細內(nèi)容,請參考我們的論文。
排行榜
除了訓(xùn)練中校驗用途的 Dev 集外,還設(shè)計了兩個人工精標(biāo)測試集,互聯(lián)網(wǎng)測試集 Test_Net 和會議測試集 Test_Meeting,作為“匹配”和“不匹配”測試,同時提供三個語音識別主流工具包(Kaldi,ESPNet,WeNet)上搭建的基線系統(tǒng),方便使用者復(fù)現(xiàn)。在 10000+ 小時的高質(zhì)量標(biāo)注數(shù)據(jù)上,目前三個系統(tǒng)的語音識別率如下表所示(結(jié)果為 MER%,中文算字錯誤,英文算詞錯誤)。
WenetSpeech 2.0
雖然 WenetSpeech 將開源中文語音識別訓(xùn)練數(shù)據(jù)規(guī)模提升到一個新的高度,然而希望進一步進行擴展和完善:
1.從領(lǐng)域角度,現(xiàn)有數(shù)據(jù)集在口音、中英文混合、會議、遠場、教育、電話、語音助手等場景仍覆蓋不足。
2.從數(shù)據(jù)量角度,現(xiàn)有的2萬+小時的總數(shù)據(jù),對于無監(jiān)督學(xué)習(xí)仍然遠遠不夠。
因此,WenetSpeech 在設(shè)計之初,就考慮到了未來做進一步擴展。目前出門問問已經(jīng)開始 WenetSpeech 2.0 的工作,并且在 2.0 中,希望更多的行業(yè)機構(gòu)和開發(fā)者能參與進來,能夠集行業(yè)之力更好、更快地去做一個更大更泛化的數(shù)據(jù)集,從而進一步反哺和造福整個行業(yè)。
相關(guān)文章
- 穿越周期:出門問問“軟硬結(jié)合”戰(zhàn)略步入收獲期,中期虧損近乎清零
- 出門問問TicNote銷量居錄音同品類熱賣榜第一名
- 當(dāng)AI學(xué)會主動思考:WAIC現(xiàn)場,出門問問TicNote讓記錄“活”起來
- AI不止算力,更懂溫度:出門問問《聽見胡同》藝術(shù)展驚艷WAIC 2025
- 斷貨預(yù)警!出門問問TicNote上市即破萬臺,供應(yīng)鏈加急響應(yīng)
- AI賦能數(shù)字經(jīng)濟,出門問問憑借軟硬結(jié)合能力躋身「北京市數(shù)字經(jīng)濟100家標(biāo)桿企業(yè)」
- AGI愿景加速!出門問問Agentic AI軟硬結(jié)合產(chǎn)品TicNote發(fā)布,以“思考伙伴”定義自我進化新范式
- 斬獲「新質(zhì)生產(chǎn)力TOP」獎!出門問問憑“AI智能體+大模型”雙引擎重塑生產(chǎn)力工具范式
- 出門問問「小問移動數(shù)字人」亮相全國知識產(chǎn)權(quán)宣傳周
- 出門問問發(fā)布全球首款A(yù)I智能體硬件TicNote
- AIGC賽道新標(biāo)桿,出門問問純軟件產(chǎn)品AIGC營收超2.2億
- 出門問問重磅發(fā)布新七代TTS 引擎TicVoice 7.0,讓AI“說人話”
- 出門問問率先落地DeepSeek應(yīng)用場景,AI推動鹽城市政務(wù)智能化發(fā)展
- 出門問問發(fā)布小問移動數(shù)字人,5大亮點解鎖大模型+具身智能新體驗
- 出門問問宣布全面融合DeepSeek!
- 直擊2024甲子引力年終盛典,出門問問斬獲業(yè)內(nèi)多個獎項
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案