精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

Interspeech 2025 | 騰訊優(yōu)圖實(shí)驗(yàn)室4篇論文入選,涵蓋超聲波活體檢測(cè)、神經(jīng)語(yǔ)音編解碼、語(yǔ)音合成等方向

2025-07-10 18:22:15AI云資訊5717

近期,Interspeech 2025會(huì)議發(fā)出了審稿結(jié)果通知。Interspeech是由國(guó)際語(yǔ)音通信協(xié)會(huì)(ISCA)組織的語(yǔ)音研究領(lǐng)域的頂級(jí)會(huì)議之一,是全球最大的綜合性語(yǔ)音信號(hào)處理領(lǐng)域的科技盛會(huì)。本屆會(huì)議以“Fair and Inclusive Speech Science and Technology”為主題,內(nèi)容涵蓋語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音編碼、語(yǔ)音增強(qiáng)、自然語(yǔ)言處理等多個(gè)領(lǐng)域。

今年,騰訊優(yōu)圖實(shí)驗(yàn)室共有4篇論文入選Interspeech 2025,內(nèi)容涵蓋超聲波活體檢測(cè)、神經(jīng)語(yǔ)音編解碼、語(yǔ)音合成等方向,展現(xiàn)了優(yōu)圖實(shí)驗(yàn)室在語(yǔ)音研究領(lǐng)域的技術(shù)能力與創(chuàng)新突破。

以下為入選論文摘要:

1

LLM框架中用于魯棒語(yǔ)音合成的單調(diào)注意力機(jī)制

Yike Zhang, Yiming Li(中科院計(jì)算所/優(yōu)圖實(shí)習(xí)生), Jie Chen, Qinghua Wu, Songjun Cao, Long Ma

基于大規(guī)模語(yǔ)言模型(LLM)的文本到語(yǔ)音(TTS)合成技術(shù)已展現(xiàn)出卓越性能并受到廣泛關(guān)注。盡管此類方法生成的語(yǔ)音自然度出色,但其往往缺乏單調(diào)對(duì)齊約束,導(dǎo)致合成輸出中出現(xiàn)重復(fù)、遺漏和對(duì)齊錯(cuò)誤等問(wèn)題。本文提出一種針對(duì)LLM架構(gòu)設(shè)計(jì)的逐步單調(diào)注意力算法,以增強(qiáng)TTS合成的魯棒性并有效解決上述缺陷。相較于現(xiàn)有最優(yōu)模型VALL-E R,所提方法無(wú)需額外強(qiáng)制對(duì)齊器,且在域外測(cè)試集上表現(xiàn)出更強(qiáng)的魯棒性。實(shí)驗(yàn)進(jìn)一步表明,該方法能良好適配大規(guī)模模型參數(shù)與海量訓(xùn)練數(shù)據(jù)。

2

SonarGuard2:基于自適應(yīng)多普勒效應(yīng)特征提取的超聲波活體檢測(cè)

Xiaoming Zhang, Keyue Zhang, Taiping Yao, Songjun Cao, Shouhong Ding, Long Ma

人臉鑒偽對(duì)于人臉識(shí)別系統(tǒng)的安全性至關(guān)重要?;谝曈X(jué)的人臉活體檢測(cè)算法在面對(duì)視頻攻擊(如視頻重放)時(shí)常常失效。然而,基于聲波的活體檢測(cè)可以依賴多普勒效應(yīng)有效地檢測(cè)此類攻擊。為了提高活體檢測(cè)的魯棒性,我們提出了一種新穎的框架,名為SonarGuard2,該框架自適應(yīng)地選擇超聲信號(hào)并分析多普勒效應(yīng)。具體來(lái)說(shuō),我們引入了回聲消除來(lái)過(guò)濾發(fā)射信號(hào)以獲取多普勒效應(yīng)特征,然后利用復(fù)數(shù)卷積神經(jīng)網(wǎng)絡(luò)來(lái)增強(qiáng)對(duì)多普勒效應(yīng)特征的建模能力。此外,我們提出了一種在移動(dòng)設(shè)備上判斷超聲信號(hào)可用性的新方法。在采集數(shù)據(jù)上的性能和可視化結(jié)果表明了我們框架的有效性。

3

Freecodec:更少tokens的解耦神經(jīng)語(yǔ)音編碼器

Youqiang Zheng(武漢大學(xué)/優(yōu)圖實(shí)習(xí)生), Weiping Tu(武漢大學(xué)), Yueteng Kang, Jie Chen, Yike Zhang, Li Xiao(武漢大學(xué)), Yuhong Yang(武漢大學(xué)), Long Ma

神經(jīng)語(yǔ)音編解碼器憑借其利用離散令牌表征實(shí)現(xiàn)的卓越重建效果而備受矚目。它是語(yǔ)音編碼和大型語(yǔ)言模型(LLM)等生成任務(wù)中的關(guān)鍵組件。然而,大多數(shù)基于殘差矢量量化的方法由于在建模復(fù)雜耦合信息方面的編碼效率較低,導(dǎo)致在使用較少令牌時(shí)性能欠佳。本文提出了一種名為FreeCodec的神經(jīng)語(yǔ)音編解碼器,它通過(guò)將語(yǔ)音的內(nèi)在屬性解耦到不同組件,采用了一種更有效的編碼框架:提取一個(gè)全局向量作為音色信息;使用一個(gè)具有長(zhǎng)步幅級(jí)別的韻律編碼器來(lái)建模韻律信息;內(nèi)容信息則來(lái)自一個(gè)內(nèi)容編碼器。

通過(guò)采用不同的訓(xùn)練策略,F(xiàn)reeCodec在重建和屬性解耦場(chǎng)景下均實(shí)現(xiàn)了最優(yōu)性能。主觀和客觀實(shí)驗(yàn)結(jié)果均表明,我們的框架優(yōu)于現(xiàn)有方法。

論文鏈接:

https://arxiv.org/abs/2412.01053

4

MPE-TTS:基于多模態(tài)提示的情感可控zero-shot語(yǔ)音合成系統(tǒng)

Zhichao Wu(南京航空航天大學(xué)/優(yōu)圖實(shí)習(xí)生), Yueteng Kang, Songjun Cao, Long Ma, Qiulin Li(南京航空航天大學(xué)), Qun Yang(南京航空航天大學(xué))

大多數(shù)現(xiàn)有的zero-shot語(yǔ)音合成(ZS-TTS)系統(tǒng)基于單一提示生成未見(jiàn)過(guò)的語(yǔ)音,例如參考語(yǔ)音或文本描述,這限制了它們的靈活性。我們提出了一種基于多模態(tài)提示的定制情感ZS-TTS系統(tǒng)。該系統(tǒng)將語(yǔ)音解耦為內(nèi)容、音色、情感和韻律,允許以文本、圖像或語(yǔ)音的形式提供情感提示。為了從這些提示中提取情感信息,我們提出了一種多模態(tài)提示情感編碼器。此外,我們引入了一種類似大型語(yǔ)言模型(LLM)的韻律預(yù)測(cè)器,以適應(yīng)韻律的分布,并提出了一種情感一致性損失,以保留預(yù)測(cè)韻律中的情感信息。采用基于擴(kuò)散的聲學(xué)模型生成目標(biāo)梅爾譜圖??陀^和主觀實(shí)驗(yàn)均表明,我們的系統(tǒng)在自然性和相似性方面優(yōu)于現(xiàn)有系統(tǒng)。

論文鏈接:

https://arxiv.org/abs/2505.18453

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛(ài)云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews