欧美放荡办公室videos,中文久久

出門問問聯(lián)合香港科技大學(xué)、上海交通大學(xué)、南洋理工大學(xué)、西北工業(yè)大學(xué)等研究機構(gòu)，共同開源新一代語音生成模型 Spark-TTS，并重磅推出了Spark-TTS的商業(yè)化高品質(zhì) TTS 引擎：TicVoice 7.0。

TicVoice 7.0作為出門問問的第七代 TTS 引擎，能在不借助額外生成模型的輔助下（比如基于flow matching進一步預(yù)測聲學(xué)特征），僅用語言模型（序列猴子）以單階段、單流方式實現(xiàn) TTS 生成。它不僅具備超自然的語音克隆與跨語種生成能力，還可根據(jù)用戶需求定制精品專屬聲音。

目前，出門問問已經(jīng)將TicVoice 7.0落地于旗下AI配音產(chǎn)品「魔音工坊」，為用戶帶來了更好的服務(wù)及效果體驗，包括SOTA 的3秒語音克隆能力、更卓越的精品發(fā)音人定制效果等，在客服、有聲書、情感直播、影視解說、影視配音等應(yīng)用場景下帶來更極致的用戶體驗。

TicVoice 7.0 ：開啟全新語音編碼范式，技術(shù) Buff 疊滿

出門問問自2012 年成立以來，便堅持在人工智能語音領(lǐng)域深耕，不斷迭代 TTS 引擎。憑借深厚的技術(shù)積累及先進的產(chǎn)品應(yīng)用經(jīng)驗，出門問問先后推出了「魔音工坊」「奇妙元」「元創(chuàng)島」等語音或搭載語音功能的產(chǎn)品，牢牢占據(jù)領(lǐng)先行業(yè)的技術(shù)與產(chǎn)品生態(tài)位。

近日，出門問問聯(lián)合國內(nèi)外頂尖的學(xué)術(shù)研究機構(gòu)香港科技大學(xué)、上海交通大學(xué)、南洋理工大學(xué)、西北工業(yè)大學(xué)，開源了新一代語音生成模型Spark-TTS，并發(fā)布于開源社區(qū)SparkAudio。

模型一經(jīng)發(fā)布，便迅速登上Hugging Face 趨勢榜 TTS 前二名，且增長勢頭強勁。而伴隨著相關(guān)論文的發(fā)布，Spark-TTS 再次點燃學(xué)術(shù)圈的熱情。

Spark-TTS 或者說 TicVoice 7.0 何以引發(fā)如此重大反響？最重要的原因在于，它為行業(yè)帶來了全新的語音編碼范式，且實現(xiàn)了建模結(jié)構(gòu)與文本LLMs 結(jié)構(gòu)的高度統(tǒng)一：

直擊主流語音token 痛點

TicVoice 7.0和Spark-TTS提出了一種全新的語音編碼方式，可有效解決主流語音離散編碼存在的兩大核心問題：

單碼本的語義token 需要經(jīng)過多個階段才能生成聲學(xué)特征，在大語言模型的自回歸建模過程中，難以對音色等屬性進行精準控制。

聲學(xué)編碼通常依賴多個碼本，導(dǎo)致模型設(shè)計復(fù)雜化，同時缺乏與語義的強關(guān)聯(lián)性，增加了預(yù)測的不確定性和難度。

BiCodec示意圖

如圖所示，BiCodec 將輸入語音編碼為互補的兩部分，即固定序列長度的Global Token和低碼率的Semantic Tokens（50 TPS, token per second）：

Global Token負責建模時序無關(guān)的全局特征（如音色），確保語音生成的全局可控性。

Semantic Tokens以wav2vec 2.0 提取的特征為輸入，編碼與文本緊密相關(guān)的信息，確保語義的強相關(guān)性。

這種設(shè)計使BiCodec既能利用Semantic Tokens 的低碼率和強語義關(guān)聯(lián)性，同時又能在自回歸語言模型中實現(xiàn)對音色等屬性的精準控制，兼顧高效性與可控性。

實現(xiàn)建模結(jié)構(gòu)與文本LLMs 結(jié)構(gòu)的高度統(tǒng)一

BiCodec 采用全離散、單流的編碼方式，使語音 token 的建模與文本 token 的建模完全統(tǒng)一：

統(tǒng)一的模型結(jié)構(gòu)：Spark-TTS直接復(fù)用 Qwen2.5 的原生架構(gòu)，并擴展其 Tokenizer 以支持語音相關(guān) token，使 Spark-TTS 的建模方式與文本建模高度一致。

屬性控制：通過引入屬性標簽（如性別、基頻等級）和細粒度屬性值（如精確基頻），Spark-TTS 以文本+屬性標簽為輸入，采用鏈式思考（CoT, Chain of Thought）的方式，依次預(yù)測細粒度屬性值 → Global Tokens → Semantic Tokens，從而實現(xiàn)音色生成高度可控。

Spark-TTS的語言模型示意圖

再度刷新行業(yè)語音克隆能力標準，極大提升用戶體驗

TicVoice 7.0展現(xiàn)出卓越的語音克隆能力，尤其在跨語言聲音克隆方面表現(xiàn)出色。我們分別將其與出門問問上一代產(chǎn)品MeetVoice Pro及國內(nèi)外優(yōu)秀的同類產(chǎn)品做了評測，發(fā)現(xiàn)TicVoice 7.0在“3秒克隆”和“至臻Pro-精品發(fā)音人”方面領(lǐng)先優(yōu)勢明顯。

讓AI “說人話”，大大提升情感表現(xiàn)力

TicVoice 7.0能夠在3秒內(nèi)敏銳地捕捉聲紋特征，讓AI不僅能“說人話”，更能模仿人類的嘆息、停頓。相比上一代的語音大模型，TicVoice 7.0的效果得到全面提升，3秒克隆經(jīng)評測，其國際通用 MOS 評分從 3.9 提升至 4.2。其在音色相似度、情感表現(xiàn)以及穩(wěn)定性上都有近10%的提升?？傮w而言，新一代語音大模型在聽感上更自然、更悅耳、更穩(wěn)定、情感表現(xiàn)力更強，可有效提升用戶在客服、情感直播、有聲書等場景的體驗。

個性化定制更加精準，輕松獲得播音級配音體驗

TicVoice 7.0支持用戶通過調(diào)整性別、語速、基頻等多種屬性（即將上線），精準塑造獨特的聲音風格。尤其在“至臻 Pro-精品發(fā)音人”定制方面，用戶可通過 20-200句語料獲得獲得播音級的專業(yè)配音體驗。

相比上一代的語音大模型，TicVoice 7.0在國際通用MOS 分數(shù)上從4.3 提升至 4.7。這意味著語音生成效果非常自然的，語音達到了廣播級水平，普通人很難區(qū)分合成語音和廣播語音的區(qū)別?？傮w而言，新一代語音大模型的語音更加清晰流暢、悅耳動聽、容易理解、易于接受，可真正應(yīng)用于影視/游戲角色配音等場景，為定制用戶帶來專業(yè)級體驗。

TicVoice 7.0的發(fā)布不僅標志著出門問問在人工智能語音生成領(lǐng)域的又一次重大突破，更通過開源生態(tài)與產(chǎn)學(xué)研深度協(xié)同，為行業(yè)發(fā)展注入了新動能。

未來，出門問問將持續(xù)深化與頂尖學(xué)術(shù)機構(gòu)的合作，不斷提升用戶的產(chǎn)品體驗，探索語音生成技術(shù)與多模態(tài)AI 的融合邊界，從“聽得懂”到“聽得真”，從“能表達”到“有情感”，讓 AI 真正成為人類情感與智慧的延伸。

精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

出門問問重磅發(fā)布新七代TTS 引擎TicVoice 7.0，讓AI“說人話”

相關(guān)文章

人工智能企業(yè)

人工智能硬件

人工智能產(chǎn)業(yè)

人工智能技術(shù)