精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

昆侖萬維Mureka V7.5模型上線,AI音樂創(chuàng)作水平再迎新高度

2025-08-15 16:44:02AI云資訊2236

8月11日,昆侖萬維SkyWork AI技術(shù)發(fā)布周正式啟動(dòng)。8月11日至8月15日,每天發(fā)布一款新模型,連續(xù)五天,覆蓋多模態(tài)AI核心場(chǎng)景的前沿模型。

截至目前,昆侖萬維已經(jīng)發(fā)布SkyReels-A3、Matrix-Game 2.0、Matrix-3D、Skywork UniPic 2.0、Skywork Deep Research Agent模型。8月15日,昆侖萬維正式上線Mureka V7.5模型。至此,昆侖萬維SkyWork AI技術(shù)發(fā)布周完美收官。

Mureka V7.5在中文歌曲上的演繹再上新臺(tái)階,不僅實(shí)現(xiàn)了中文歌曲音色、演奏技法的大幅提升,還完成了中文歌曲咬字與情感表現(xiàn)提升。

首先,基于對(duì)中文曲風(fēng)和元素的強(qiáng)大理解,Mureka的理解模型對(duì)傳統(tǒng)民歌、戲曲到經(jīng)典華語流行金曲乃至當(dāng)代民謠音樂擁有深刻認(rèn)知。這種在中文音樂多樣性與文化特性上的深度積累,使模型在理解和生成中文音樂時(shí),能夠更準(zhǔn)確地傳達(dá)其特有的藝術(shù)神韻和情感色彩。

其次,為了進(jìn)一步提升生成音樂中人聲表現(xiàn)的真實(shí)性與情感深度,我們針對(duì)歌曲特點(diǎn)優(yōu)化了 ASR 技術(shù),使之成為理解模塊的有力延伸。這項(xiàng)技術(shù)深入到演唱的微觀層面,不僅精準(zhǔn)識(shí)別唱詞,更能通過分析真實(shí)演唱中的氣息運(yùn)用、情感起伏和唱法細(xì)節(jié),智能劃分出符合演唱規(guī)律的樂句,并確定自然的換氣與停頓位置。結(jié)合同樣精準(zhǔn)的樂段識(shí)別,顯著提升了生成人聲的段落清晰度與結(jié)構(gòu)真實(shí)感。

這些捕捉到的細(xì)粒度演唱信息反饋給生成模型,極大地增強(qiáng)了人聲的自然度、呼吸感以及情感表達(dá)的真實(shí)性,有效削弱了機(jī)械感,使 AI 演繹的歌曲在流暢性上更貼近真人演唱,這在處理中文歌曲特有的韻律和氣息要求時(shí)效果尤為突出。

正是這種結(jié)合在文化特性上的獨(dú)特積累和針對(duì)歌曲演唱優(yōu)化的ASR技術(shù)所帶來的細(xì)節(jié)洞察,共同構(gòu)成了我們?cè)谥形囊魳飞深I(lǐng)域的核心競(jìng)爭(zhēng)力。

Mureka V7.5不僅能「聽懂」對(duì)音樂旋律與節(jié)奏的制作要求,更能深刻理解并再現(xiàn)不同文化語境下,特別是中文音樂中蘊(yùn)含的細(xì)膩情感與藝術(shù)表達(dá),從而為生成高度符合目標(biāo)審美與文化語境、兼具藝術(shù)性與真實(shí)感的音樂作品,打下堅(jiān)持技術(shù)基礎(chǔ)。

同時(shí),在語音模型方向上,昆侖萬維語音團(tuán)隊(duì)推出MoE-TTS——首個(gè)基于MOE的角色描述語音合成框架。

作為面向開放描述(Out-of-domain Descriptions)場(chǎng)景的全新語音合成框架的研究性工作,該技術(shù)可讓用戶通過自然語言描述(例如“清澈的少年音帶磁性尾韻”)精準(zhǔn)控制聲音特征與風(fēng)格,在僅使用開源數(shù)據(jù)的條件下,對(duì)標(biāo)甚至超越閉源商業(yè)產(chǎn)品的角色貼合度表現(xiàn)。

技術(shù)報(bào)告:https://teal-aquarius-c17.notion.site/MoE-TTS-Enhancing-Out-of-Domain-Text-Understanding-for-Description-based-TTS-via-Mixture-of-Experts-24e44360bf708040bff3dffe2eef805e

近年來,描述性語音合成虛擬助手、有聲創(chuàng)作、數(shù)字人等領(lǐng)域展現(xiàn)出巨大潛力。然而,學(xué)術(shù)界長(zhǎng)期受制于描述數(shù)據(jù)的局限性模型對(duì)開放語義的泛化能力不足,導(dǎo)致面對(duì)比喻、類比等復(fù)雜修辭時(shí),生成的語音往往偏離用戶預(yù)期。

MoE-TTS的推出有望助力解決這一核心難題。該框架創(chuàng)新性地結(jié)合預(yù)訓(xùn)練大語言模型(LLM)文本能力語音專家模塊(Speech Expert Modules),為文本與語音分別配置專用專家模塊,并在Transformer核心結(jié)構(gòu)中引入模態(tài)路由,確保各模態(tài)獨(dú)立優(yōu)化、互不干擾。在凍結(jié)文本參數(shù)的同時(shí)高效對(duì)齊跨模態(tài)信息,實(shí)現(xiàn)“知識(shí)零損失”的泛化理解能力。

在涵蓋域內(nèi)與域外描述的雙測(cè)試集上,MoE-TTS 與主流閉源 TTS 模型進(jìn)行了六大維度對(duì)比評(píng)測(cè):MoE-TTS 在風(fēng)格表現(xiàn)力貼合度(SEA)和整體貼合度(OA)等聲學(xué)控制上精準(zhǔn)度領(lǐng)先,這正是其在復(fù)雜描述匹配度上勝出的關(guān)鍵。

MoE-TTS 的發(fā)布不僅為學(xué)術(shù)界提供了可復(fù)現(xiàn)的開放描述 TTS 解決方案,也證明了模態(tài)解耦 + 知識(shí)凍結(jié)遷移的技術(shù)路徑在語音合成中的巨大潛力。這一突破有望推動(dòng)行業(yè)從“封閉標(biāo)簽式控制”走向“自然語言自由控制”的新范式,加速數(shù)字人、虛擬助手和沉浸式內(nèi)容創(chuàng)作的體驗(yàn)升級(jí)。

MoE-TTS目前仍在迭代中,后續(xù)規(guī)劃將集成至旗下Mureka-Speech平臺(tái)作為角色配音的基座模型,為全球開發(fā)者和創(chuàng)作者提供開放、高效、可定制的描述性語音合成能力。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews