精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

趣丸科技聯(lián)合港中大(深圳)開源首個語音大模型,效果全球領(lǐng)先躋身第一梯隊

2024-10-27 19:33:48AI云資訊3190

10月24日,趣丸科技宣布與香港中文大學(xué)(深圳)聯(lián)合研發(fā)的語音大模型“MaskGCT”正式在Amphion系統(tǒng)中開源,面向全球用戶開放使用。區(qū)別于傳統(tǒng)TTS模型,該模型采用掩碼生成模型與語音表征解耦編碼的創(chuàng)新范式,在聲音克隆、跨語種合成、語音控制等任務(wù)中展現(xiàn)出卓越效果。

據(jù)介紹,MaskGCT在三個TTS基準(zhǔn)數(shù)據(jù)集上都達(dá)到了SOTA效果,超過當(dāng)前最先進(jìn)的同類模型。

模型能力全球領(lǐng)先,躋身第一梯隊

相較于現(xiàn)有的TTS大模型,MaskGCT在語音的相似度、質(zhì)量和穩(wěn)定性上進(jìn)一步突破,尤其在語音相似度方面處于絕對領(lǐng)先地位。顯著特點如下:

1、秒級超逼真的聲音克隆:提供3秒音頻樣本即可復(fù)刻人類、動漫、“耳邊細(xì)語”等任意音色,且能完整復(fù)刻語調(diào)、風(fēng)格和情感。

2、更精細(xì)可控的語音生成:可靈活調(diào)整生成語音的長度、語速和情緒,支持通過編輯文本編輯語音,并保持韻律、音色等方面的極度一致。

3、高質(zhì)量多語種語音數(shù)據(jù)集:訓(xùn)練于香港中文大學(xué)(深圳)和趣丸科技等機構(gòu)聯(lián)合推出的10萬小時數(shù)據(jù)集Emilia,是全球最大且最為多樣的高質(zhì)量多語種語音數(shù)據(jù)集之一,精通中英日韓法德6種語言的跨語種合成。

優(yōu)秀的模型離不開頂尖的團(tuán)隊。MaskGCT研發(fā)團(tuán)隊在語音領(lǐng)域擁有深厚的研究積累和原創(chuàng)性成果。該工作由港中大(深圳)-趣丸科技人工智能聯(lián)合實驗室成員完成,這主要依托趣丸科技十年深耕音頻技術(shù)領(lǐng)域和億級高質(zhì)量語音用戶的服務(wù)經(jīng)驗,以及香港中文大學(xué)(深圳)國際一流水平的師資隊伍。

技術(shù)范式創(chuàng)新,突破大模型能力邊界

MaskGCT(Masked Generative Codec Transformer)是一個大規(guī)模的零樣本TTS模型,采用非自回歸掩碼生成Transformer,無需文本與語音的對齊監(jiān)督和音素級持續(xù)時間預(yù)測。其技術(shù)突破性在于采用掩碼生成模型與語音表征解耦編碼的創(chuàng)新范式。實驗表明,MaskGCT在語音質(zhì)量、相似度和可理解性方面優(yōu)于當(dāng)前最先進(jìn)的TTS模型,并且在模型規(guī)模和訓(xùn)練數(shù)據(jù)量增加時表現(xiàn)更佳,同時能夠控制生成語音的總時長。MaskGCT已在香港中文大學(xué)(深圳)與上海人工智能實驗室聯(lián)合開發(fā)的開源系統(tǒng)Amphion發(fā)布。

據(jù)介紹,MaskGCT是一個兩階段模型。在第一階段,模型使用文本預(yù)測從語音自監(jiān)督學(xué)習(xí)(SSL)模型中提取的語義標(biāo)記;在第二階段,模型基于這些語義標(biāo)記預(yù)測聲學(xué)標(biāo)記。MaskGCT遵循掩碼預(yù)測學(xué)習(xí)范式。在訓(xùn)練過程中,MaskGCT學(xué)習(xí)根據(jù)給定的條件和提示預(yù)測掩碼的語義或聲學(xué)標(biāo)記。在推理過程中,模型以并行方式生成指定長度的標(biāo)記。通過對10萬小時的自然語音進(jìn)行實驗,結(jié)果表明MaskGCT在質(zhì)量、相似度和可理解性方面優(yōu)于當(dāng)前最先進(jìn)的零樣本TTS系統(tǒng)。

科研成果走出實驗室,應(yīng)用前景廣闊

MaskGCT的誕生,再次證明即使在算力受限的情況下,中國AI企業(yè)仍有勇氣和底氣追趕并超越西方同行。

然而,除了保持技術(shù)領(lǐng)先,大模型的更大價值在于走出實驗室,賦能千行百業(yè)惠及千家萬戶,成為驅(qū)動經(jīng)濟增長的新質(zhì)生產(chǎn)力。

目前,MaskGCT在短劇出海、數(shù)字人、智能助手、有聲讀物、輔助教育等領(lǐng)域擁有豐富的應(yīng)用場景。為了加快落地應(yīng)用,在安全合規(guī)下,趣丸科技打造了多語種速譯智能視聽平臺“趣丸千音”。一鍵上傳視頻即可快速翻譯成多語種版本,并實現(xiàn)字幕修復(fù)與翻譯、語音翻譯、唇音同步等功能。該產(chǎn)品進(jìn)一步革新視頻翻譯制作流程,大幅降低過往昂貴的人工翻譯成本和冗長的制作周期,成為影視、游戲、短劇等內(nèi)容出海的理想選擇平臺。

《2024年短劇出海白皮書》顯示,2023年海外市場規(guī)模高達(dá)650億美元,約為國內(nèi)市場的12倍,短劇出海成為藍(lán)海新賽道。以“趣丸千音”為代表的產(chǎn)品的出現(xiàn),將加速國產(chǎn)短劇“走出去”,進(jìn)一步推動中華文化在全球不同語境下的傳播。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews