趣丸科技聯(lián)合港中大(深圳)開源首個語音大模型,效果全球領(lǐng)先躋身第一梯隊
2024-10-27 19:33:48AI云資訊3190
10月24日,趣丸科技宣布與香港中文大學(xué)(深圳)聯(lián)合研發(fā)的語音大模型“MaskGCT”正式在Amphion系統(tǒng)中開源,面向全球用戶開放使用。區(qū)別于傳統(tǒng)TTS模型,該模型采用掩碼生成模型與語音表征解耦編碼的創(chuàng)新范式,在聲音克隆、跨語種合成、語音控制等任務(wù)中展現(xiàn)出卓越效果。
據(jù)介紹,MaskGCT在三個TTS基準(zhǔn)數(shù)據(jù)集上都達(dá)到了SOTA效果,超過當(dāng)前最先進(jìn)的同類模型。
模型能力全球領(lǐng)先,躋身第一梯隊
相較于現(xiàn)有的TTS大模型,MaskGCT在語音的相似度、質(zhì)量和穩(wěn)定性上進(jìn)一步突破,尤其在語音相似度方面處于絕對領(lǐng)先地位。顯著特點如下:
1、秒級超逼真的聲音克隆:提供3秒音頻樣本即可復(fù)刻人類、動漫、“耳邊細(xì)語”等任意音色,且能完整復(fù)刻語調(diào)、風(fēng)格和情感。
2、更精細(xì)可控的語音生成:可靈活調(diào)整生成語音的長度、語速和情緒,支持通過編輯文本編輯語音,并保持韻律、音色等方面的極度一致。
3、高質(zhì)量多語種語音數(shù)據(jù)集:訓(xùn)練于香港中文大學(xué)(深圳)和趣丸科技等機構(gòu)聯(lián)合推出的10萬小時數(shù)據(jù)集Emilia,是全球最大且最為多樣的高質(zhì)量多語種語音數(shù)據(jù)集之一,精通中英日韓法德6種語言的跨語種合成。
優(yōu)秀的模型離不開頂尖的團(tuán)隊。MaskGCT研發(fā)團(tuán)隊在語音領(lǐng)域擁有深厚的研究積累和原創(chuàng)性成果。該工作由港中大(深圳)-趣丸科技人工智能聯(lián)合實驗室成員完成,這主要依托趣丸科技十年深耕音頻技術(shù)領(lǐng)域和億級高質(zhì)量語音用戶的服務(wù)經(jīng)驗,以及香港中文大學(xué)(深圳)國際一流水平的師資隊伍。
技術(shù)范式創(chuàng)新,突破大模型能力邊界
MaskGCT(Masked Generative Codec Transformer)是一個大規(guī)模的零樣本TTS模型,采用非自回歸掩碼生成Transformer,無需文本與語音的對齊監(jiān)督和音素級持續(xù)時間預(yù)測。其技術(shù)突破性在于采用掩碼生成模型與語音表征解耦編碼的創(chuàng)新范式。實驗表明,MaskGCT在語音質(zhì)量、相似度和可理解性方面優(yōu)于當(dāng)前最先進(jìn)的TTS模型,并且在模型規(guī)模和訓(xùn)練數(shù)據(jù)量增加時表現(xiàn)更佳,同時能夠控制生成語音的總時長。MaskGCT已在香港中文大學(xué)(深圳)與上海人工智能實驗室聯(lián)合開發(fā)的開源系統(tǒng)Amphion發(fā)布。
據(jù)介紹,MaskGCT是一個兩階段模型。在第一階段,模型使用文本預(yù)測從語音自監(jiān)督學(xué)習(xí)(SSL)模型中提取的語義標(biāo)記;在第二階段,模型基于這些語義標(biāo)記預(yù)測聲學(xué)標(biāo)記。MaskGCT遵循掩碼預(yù)測學(xué)習(xí)范式。在訓(xùn)練過程中,MaskGCT學(xué)習(xí)根據(jù)給定的條件和提示預(yù)測掩碼的語義或聲學(xué)標(biāo)記。在推理過程中,模型以并行方式生成指定長度的標(biāo)記。通過對10萬小時的自然語音進(jìn)行實驗,結(jié)果表明MaskGCT在質(zhì)量、相似度和可理解性方面優(yōu)于當(dāng)前最先進(jìn)的零樣本TTS系統(tǒng)。
科研成果走出實驗室,應(yīng)用前景廣闊
MaskGCT的誕生,再次證明即使在算力受限的情況下,中國AI企業(yè)仍有勇氣和底氣追趕并超越西方同行。
然而,除了保持技術(shù)領(lǐng)先,大模型的更大價值在于走出實驗室,賦能千行百業(yè)惠及千家萬戶,成為驅(qū)動經(jīng)濟增長的新質(zhì)生產(chǎn)力。
目前,MaskGCT在短劇出海、數(shù)字人、智能助手、有聲讀物、輔助教育等領(lǐng)域擁有豐富的應(yīng)用場景。為了加快落地應(yīng)用,在安全合規(guī)下,趣丸科技打造了多語種速譯智能視聽平臺“趣丸千音”。一鍵上傳視頻即可快速翻譯成多語種版本,并實現(xiàn)字幕修復(fù)與翻譯、語音翻譯、唇音同步等功能。該產(chǎn)品進(jìn)一步革新視頻翻譯制作流程,大幅降低過往昂貴的人工翻譯成本和冗長的制作周期,成為影視、游戲、短劇等內(nèi)容出海的理想選擇平臺。
《2024年短劇出海白皮書》顯示,2023年海外市場規(guī)模高達(dá)650億美元,約為國內(nèi)市場的12倍,短劇出海成為藍(lán)海新賽道。以“趣丸千音”為代表的產(chǎn)品的出現(xiàn),將加速國產(chǎn)短劇“走出去”,進(jìn)一步推動中華文化在全球不同語境下的傳播。
相關(guān)文章
- Soul全雙工語音大模型升級 迭代人機交互體驗感
- 模型選型專題系列 | 業(yè)界首個!元景MaaS平臺上線《大模型選型說明書》
- 獲央視點贊 深蘭科技AI醫(yī)療大模型落地打浦橋街道社區(qū)服務(wù)中心
- 新達(dá)內(nèi)與百度智能云達(dá)成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案
- 打造廣東首個地方文獻(xiàn)專題處理AI大模型,南沙區(qū)圖書館“阿貝數(shù)字人”項目重磅上線!
- 商湯大裝置躋身中國大模型平臺市場頭部廠商,萬象平臺加速AI落地“最后一公里”
- DFRobot 亮相貿(mào)澤電子 elexcon 2025 展臺,展示與Qwen3 大模型融合的AI 應(yīng)用
- 曠視趙康:做大模型的“煉金術(shù)士”,讓AI在千行百業(yè)中兌現(xiàn)價值
- 云軸科技ZStack入選IDC大模型推理算力市場報告典型廠商
- 中國具身大模型初創(chuàng)公司眸深智能獲得IJCAI2025杰出論文獎,唯一獲獎大陸團(tuán)隊!
- 心率血氧監(jiān)測新玩法:行空板M10融合AI大模型,讓數(shù)據(jù)會“說話”
- 特斯拉在中國市場放棄xAI的Grok大模型 選擇接入DeepSeek AI技術(shù)
- 昇騰助力中科大團(tuán)隊實現(xiàn)MoE 稀疏大模型并行推理提速超30%
- 聚焦制造業(yè)智能化轉(zhuǎn)型 中國科學(xué)技術(shù)大學(xué)依托昇騰突破知識增強大模型關(guān)鍵技術(shù)
- 大模型推理成本居高不下,浪潮存儲幫你來突圍!
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案