出門問問重磅發(fā)布新七代TTS 引擎TicVoice 7.0,讓AI“說人話”
2025-03-07 19:08:02AI云資訊14248
出門問問聯(lián)合香港科技大學(xué)、上海交通大學(xué)、南洋理工大學(xué)、西北工業(yè)大學(xué)等研究機構(gòu),共同開源新一代語音生成模型 Spark-TTS,并重磅推出了Spark-TTS的商業(yè)化高品質(zhì) TTS 引擎:TicVoice 7.0。
TicVoice 7.0作為出門問問的第七代 TTS 引擎,能在不借助額外生成模型的輔助下(比如基于flow matching進一步預(yù)測聲學(xué)特征),僅用語言模型(序列猴子)以單階段、單流方式實現(xiàn) TTS 生成。它不僅具備超自然的語音克隆與跨語種生成能力,還可根據(jù)用戶需求定制精品專屬聲音。
目前,出門問問已經(jīng)將TicVoice 7.0落地于旗下AI配音產(chǎn)品「魔音工坊」,為用戶帶來了更好的服務(wù)及效果體驗,包括SOTA 的3秒語音克隆能力、更卓越的精品發(fā)音人定制效果等,在客服、有聲書、情感直播、影視解說、影視配音等應(yīng)用場景下帶來更極致的用戶體驗。
TicVoice 7.0 :開啟全新語音編碼范式,技術(shù) Buff 疊滿
出門問問自2012 年成立以來,便堅持在人工智能語音領(lǐng)域深耕,不斷迭代 TTS 引擎。憑借深厚的技術(shù)積累及先進的產(chǎn)品應(yīng)用經(jīng)驗,出門問問先后推出了「魔音工坊」「奇妙元」「元創(chuàng)島」等語音或搭載語音功能的產(chǎn)品,牢牢占據(jù)領(lǐng)先行業(yè)的技術(shù)與產(chǎn)品生態(tài)位。
近日,出門問問聯(lián)合國內(nèi)外頂尖的學(xué)術(shù)研究機構(gòu)香港科技大學(xué)、上海交通大學(xué)、南洋理工大學(xué)、西北工業(yè)大學(xué),開源了新一代語音生成模型Spark-TTS,并發(fā)布于開源社區(qū)SparkAudio。
模型一經(jīng)發(fā)布,便迅速登上Hugging Face 趨勢榜 TTS 前二名,且增長勢頭強勁。而伴隨著相關(guān)論文的發(fā)布,Spark-TTS 再次點燃學(xué)術(shù)圈的熱情。
Spark-TTS 或者說 TicVoice 7.0 何以引發(fā)如此重大反響? 最重要的原因在于,它為行業(yè)帶來了全新的語音編碼范式,且實現(xiàn)了建模結(jié)構(gòu)與文本LLMs 結(jié)構(gòu)的高度統(tǒng)一:
直擊主流語音token 痛點
TicVoice 7.0和Spark-TTS提出了一種全新的語音編碼方式,可有效解決主流語音離散編碼存在的兩大核心問題:
單碼本的語義token 需要經(jīng)過多個階段才能生成聲學(xué)特征,在大語言模型的自回歸建模過程中,難以對音色等屬性進行精準控制。
聲學(xué)編碼通常依賴多個碼本,導(dǎo)致模型設(shè)計復(fù)雜化,同時缺乏與語義的強關(guān)聯(lián)性,增加了預(yù)測的不確定性和難度。
BiCodec示意圖
如圖所示,BiCodec 將輸入語音編碼為互補的兩部分,即固定序列長度的Global Token和低碼率的Semantic Tokens(50 TPS, token per second):
Global Token負責建模時序無關(guān)的全局特征(如音色),確保語音生成的全局可控性。
Semantic Tokens以wav2vec 2.0 提取的特征為輸入,編碼與文本緊密相關(guān)的信息,確保語義的強相關(guān)性。
這種設(shè)計使BiCodec既能利用Semantic Tokens 的低碼率和強語義關(guān)聯(lián)性,同時又能在自回歸語言模型中實現(xiàn)對音色等屬性的精準控制,兼顧高效性與可控性。
實現(xiàn)建模結(jié)構(gòu)與文本LLMs 結(jié)構(gòu)的高度統(tǒng)一
BiCodec 采用全離散、單流的編碼方式,使語音 token 的建模與文本 token 的建模完全統(tǒng)一:
統(tǒng)一的模型結(jié)構(gòu):Spark-TTS直接復(fù)用 Qwen2.5 的原生架構(gòu),并擴展其 Tokenizer 以支持語音相關(guān) token,使 Spark-TTS 的建模方式與文本建模高度一致。
屬性控制:通過引入屬性標簽(如性別、基頻等級)和細粒度屬性值(如精確基頻),Spark-TTS 以文本+屬性標簽為輸入,采用鏈式思考(CoT, Chain of Thought)的方式,依次預(yù)測細粒度屬性值 → Global Tokens → Semantic Tokens,從而實現(xiàn)音色生成高度可控。
Spark-TTS的語言模型示意圖
再度刷新行業(yè)語音克隆能力標準,極大提升用戶體驗
TicVoice 7.0展現(xiàn)出卓越的語音克隆能力,尤其在跨語言聲音克隆方面表現(xiàn)出色。我們分別將其與出門問問上一代產(chǎn)品MeetVoice Pro及國內(nèi)外優(yōu)秀的同類產(chǎn)品做了評測,發(fā)現(xiàn)TicVoice 7.0在“3秒克隆”和“至臻Pro-精品發(fā)音人”方面領(lǐng)先優(yōu)勢明顯。
讓AI “說人話”,大大提升情感表現(xiàn)力
TicVoice 7.0能夠在3秒內(nèi)敏銳地捕捉聲紋特征,讓AI不僅能“說人話”,更能模仿人類的嘆息、停頓。相比上一代的語音大模型,TicVoice 7.0的效果得到全面提升,3秒克隆經(jīng)評測,其國際通用 MOS 評分從 3.9 提升至 4.2。其在音色相似度、情感表現(xiàn)以及穩(wěn)定性上都有近10%的提升??傮w而言,新一代語音大模型在聽感上更自然、更悅耳、更穩(wěn)定、情感表現(xiàn)力更強,可有效提升用戶在客服、情感直播、有聲書等場景的體驗。
個性化定制更加精準,輕松獲得播音級配音體驗
TicVoice 7.0支持用戶通過調(diào)整性別、語速、基頻等多種屬性(即將上線),精準塑造獨特的聲音風格。尤其在“至臻 Pro-精品發(fā)音人”定制方面,用戶可通過 20-200句語料獲得獲得播音級的專業(yè)配音體驗。
相比上一代的語音大模型,TicVoice 7.0在國際通用MOS 分數(shù)上從4.3 提升至 4.7。這意味著語音生成效果非常自然的,語音達到了廣播級水平,普通人很難區(qū)分合成語音和廣播語音的區(qū)別??傮w而言,新一代語音大模型的語音更加清晰流暢、悅耳動聽、容易理解、易于接受,可真正應(yīng)用于影視/游戲角色配音等場景,為定制用戶帶來專業(yè)級體驗。
TicVoice 7.0的發(fā)布不僅標志著出門問問在人工智能語音生成領(lǐng)域的又一次重大突破,更通過開源生態(tài)與產(chǎn)學(xué)研深度協(xié)同,為行業(yè)發(fā)展注入了新動能。
未來,出門問問將持續(xù)深化與頂尖學(xué)術(shù)機構(gòu)的合作,不斷提升用戶的產(chǎn)品體驗,探索語音生成技術(shù)與多模態(tài)AI 的融合邊界,從“聽得懂”到“聽得真”,從“能表達”到“有情感”,讓 AI 真正成為人類情感與智慧的延伸。
相關(guān)文章
- 穿越周期:出門問問“軟硬結(jié)合”戰(zhàn)略步入收獲期,中期虧損近乎清零
- 出門問問TicNote銷量居錄音同品類熱賣榜第一名
- 當AI學(xué)會主動思考:WAIC現(xiàn)場,出門問問TicNote讓記錄“活”起來
- AI不止算力,更懂溫度:出門問問《聽見胡同》藝術(shù)展驚艷WAIC 2025
- 斷貨預(yù)警!出門問問TicNote上市即破萬臺,供應(yīng)鏈加急響應(yīng)
- AI賦能數(shù)字經(jīng)濟,出門問問憑借軟硬結(jié)合能力躋身「北京市數(shù)字經(jīng)濟100家標桿企業(yè)」
- AGI愿景加速!出門問問Agentic AI軟硬結(jié)合產(chǎn)品TicNote發(fā)布,以“思考伙伴”定義自我進化新范式
- 斬獲「新質(zhì)生產(chǎn)力TOP」獎!出門問問憑“AI智能體+大模型”雙引擎重塑生產(chǎn)力工具范式
- 出門問問「小問移動數(shù)字人」亮相全國知識產(chǎn)權(quán)宣傳周
- 出門問問發(fā)布全球首款A(yù)I智能體硬件TicNote
- AIGC賽道新標桿,出門問問純軟件產(chǎn)品AIGC營收超2.2億
- 出門問問重磅發(fā)布新七代TTS 引擎TicVoice 7.0,讓AI“說人話”
- 出門問問率先落地DeepSeek應(yīng)用場景,AI推動鹽城市政務(wù)智能化發(fā)展
- 出門問問發(fā)布小問移動數(shù)字人,5大亮點解鎖大模型+具身智能新體驗
- 出門問問宣布全面融合DeepSeek!
- 直擊2024甲子引力年終盛典,出門問問斬獲業(yè)內(nèi)多個獎項
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習方案