中文字幕无线观看在,自拍偷自拍亚洲精品播放

日前，中國領(lǐng)先的人工智能公司出門問問與西北工業(yè)大學(xué)音頻語音和語言處理研究組(ASLP Lab)、希爾貝殼聯(lián)合發(fā)布1萬小時多領(lǐng)域中文語音識別數(shù)據(jù)集 WenetSpeech，在騰訊會議天籟實驗室、華為昇思 MindSpore、西安未來人工智能計算中心等機構(gòu)大力支持下，該數(shù)據(jù)集目前已經(jīng)開放下載。

WenetSpeech 介紹

近十年以來，在深度學(xué)習(xí)的推動下，語音識別技術(shù)和應(yīng)用均取得了突飛猛進的發(fā)展，搭載語音識別技術(shù)的相關(guān)產(chǎn)品和服務(wù)，諸如語音搜索、語音輸入法、智能音箱、智能電視、智能穿戴、智能客服、機器人等已經(jīng)廣泛應(yīng)用到我們生活的方方面面。但在現(xiàn)有的中文語音識別研究中，由于開源中文語音數(shù)據(jù)集數(shù)據(jù)量少，場景單一，缺乏挑戰(zhàn)性，不能反映研究模型在大數(shù)據(jù)量和復(fù)雜場景下的泛化能力，例如，當(dāng)前最大的中文普通話開源數(shù)據(jù)集 AIShell-2，包含1000小時的朗讀風(fēng)格錄制數(shù)據(jù)，主流識別系統(tǒng)在該數(shù)據(jù)的測試集上獲得的錯誤率低至5.3%左右。工業(yè)界往往使用更大規(guī)模的內(nèi)部數(shù)據(jù)進行研究，而學(xué)術(shù)界無法獲取這些數(shù)據(jù)進行研究，這導(dǎo)致了中文語音識別研究在學(xué)術(shù)界和工業(yè)界的嚴(yán)重割裂。另一方面，當(dāng)下研究的熱點無監(jiān)督學(xué)習(xí)和自學(xué)習(xí)，在中文語音識別領(lǐng)域，也缺乏公開標(biāo)準(zhǔn)的大數(shù)據(jù)集的支持。

今年以來，F(xiàn)acebook 發(fā)布面向監(jiān)督學(xué)習(xí)的5萬小時的英文 audiobook 數(shù)據(jù)集 Multilingual LibriSpeech；SpeechColab 發(fā)布1萬小時的多領(lǐng)域英文數(shù)據(jù)集 GigaSpeech。受這些工作的啟發(fā)，同時中文語音識別研究也迫切需要一個標(biāo)準(zhǔn)的大規(guī)模多領(lǐng)域的數(shù)據(jù)集，為此出門問問與西北工業(yè)大學(xué)音頻語音和語言處理研究組(ASLP Lab)、希爾貝殼設(shè)計開發(fā)了 WenetSpeech 數(shù)據(jù)集。

WenetSpeech 除了含有 10000+ 小時的高質(zhì)量標(biāo)注數(shù)據(jù)之外，還包括2400+ 小時弱標(biāo)注數(shù)據(jù)和 22400+ 小時的總音頻，覆蓋各種互聯(lián)網(wǎng)音視頻、噪聲背景條件、講話方式，來源領(lǐng)域包括有聲書、解說、紀(jì)錄片、電視劇、訪談、新聞、朗讀、演講、綜藝和其他等10大場景，領(lǐng)域詳細統(tǒng)計數(shù)據(jù)如下圖所示。

數(shù)據(jù)收集

WenetSpeech 所有的數(shù)據(jù)均來源于網(wǎng)絡(luò)，其中三分之二的數(shù)據(jù)來自 Youtube，三分之一來自 Podcast。

對于 Youtube 數(shù)據(jù)，我們?nèi)斯みx擇含有嵌入式硬字幕（字幕嵌入在視頻流中，非外掛字幕）的視頻資源，并構(gòu)建了如下圖的基于 OCR 的系統(tǒng)進行數(shù)據(jù)挖掘，流程如下：

1.文本檢測，在當(dāng)前視頻幀上進行文本檢測。

2.字幕位置校驗，判斷檢測到的文本區(qū)域是否為合法的字幕區(qū)域。

3.字幕切換檢測，已得到字幕位置和區(qū)域，在連續(xù)的視頻幀上對該區(qū)域進行檢測，直至該區(qū)域的字幕變化為止，得到字幕的起始和結(jié)束時間。

4.文本識別，將字幕區(qū)域進行 OCR 識別，得到文本。

5.將3中對應(yīng)時間的音頻提取出來，結(jié)合4中的文本，即得到字幕文本和該文本對應(yīng)的音頻，也就是語音識別訓(xùn)練中所需的文本和語音的候選平行數(shù)據(jù)。

下圖中給出該 OCR 系統(tǒng)在不同場景下的幾個典型示例。圖中綠色的框為檢測到的所有文字區(qū)域，紅色的框為判定為字幕的文字區(qū)域，紅色框上方的文本為 OCR 的識別結(jié)果。可以看到，該系統(tǒng)正確的判定了字幕區(qū)域，并準(zhǔn)確的識別了字幕文本，同時經(jīng)過我們測試，發(fā)現(xiàn)該系統(tǒng)也可以準(zhǔn)確判定字幕的起始和結(jié)束時間。

對于 Podcast 數(shù)據(jù)，WeNet使用國內(nèi)最好的商業(yè)語音識別系統(tǒng)之一，對 Podcast 數(shù)據(jù)進行切分，并生成切分后音頻和其所對應(yīng)的文本作為候選平行數(shù)據(jù)。

數(shù)據(jù)校驗

OCR 字幕識別和 ASR 語音轉(zhuǎn)寫生成的候選平行數(shù)據(jù)中不可避免的存在一些錯誤，如人工字幕本身有錯誤，字幕時間不準(zhǔn)，OCR 識別錯誤，轉(zhuǎn)寫錯誤等。為了檢測該錯誤，WenetSpeech 中提出一種基于端到端的自動標(biāo)注錯誤檢測算法，如下圖所示。該算法首先根據(jù)候選平行數(shù)據(jù)的文本(ref)構(gòu)建一個一個強制對齊圖，該圖中允許在任意位置進行刪除、插入和替換操作。然后將候選平行數(shù)據(jù)的語音輸入到該圖進行解碼得到識別結(jié)果(hyp)，最終計算 ref 和 hyp 的編輯距離并做歸一化從而得到該候選平行數(shù)據(jù)的置信度。當(dāng)候選語音和文本一致性高時，ref 和 hyp 一致性高，置信度高，反之，當(dāng)候選語音和文本一致性低時，置信度低。

WenetSpeech 中選取置信度>=95%的數(shù)據(jù)作為高質(zhì)量標(biāo)注數(shù)據(jù)，選取置信度在0.6和0.95之間的數(shù)據(jù)作為弱監(jiān)督數(shù)據(jù)。關(guān)于該算法的詳細內(nèi)容，請參考我們的論文。

排行榜

除了訓(xùn)練中校驗用途的 Dev 集外，還設(shè)計了兩個人工精標(biāo)測試集，互聯(lián)網(wǎng)測試集 Test_Net 和會議測試集 Test_Meeting，作為“匹配”和“不匹配”測試，同時提供三個語音識別主流工具包（Kaldi，ESPNet，WeNet）上搭建的基線系統(tǒng)，方便使用者復(fù)現(xiàn)。在 10000+ 小時的高質(zhì)量標(biāo)注數(shù)據(jù)上，目前三個系統(tǒng)的語音識別率如下表所示（結(jié)果為 MER%，中文算字錯誤，英文算詞錯誤）。

WenetSpeech 2.0

雖然 WenetSpeech 將開源中文語音識別訓(xùn)練數(shù)據(jù)規(guī)模提升到一個新的高度，然而希望進一步進行擴展和完善：

1.從領(lǐng)域角度，現(xiàn)有數(shù)據(jù)集在口音、中英文混合、會議、遠場、教育、電話、語音助手等場景仍覆蓋不足。

2.從數(shù)據(jù)量角度，現(xiàn)有的2萬+小時的總數(shù)據(jù)，對于無監(jiān)督學(xué)習(xí)仍然遠遠不夠。

因此，WenetSpeech 在設(shè)計之初，就考慮到了未來做進一步擴展。目前出門問問已經(jīng)開始 WenetSpeech 2.0 的工作，并且在 2.0 中，希望更多的行業(yè)機構(gòu)和開發(fā)者能參與進來，能夠集行業(yè)之力更好、更快地去做一個更大更泛化的數(shù)據(jù)集，從而進一步反哺和造福整個行業(yè)。

精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

出門問問聯(lián)合發(fā)布全球最大多領(lǐng)域中文語音識別數(shù)據(jù)集WenetSpeech

相關(guān)文章

人工智能企業(yè)

人工智能硬件

人工智能產(chǎn)業(yè)

人工智能技術(shù)