精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

值得買科技與人大高瓴聯(lián)合研究成果入選計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議CVPR2025

2025-06-12 11:23:45AI云資訊2513

6月11日-15日,2025國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議(Conference on Computer Vision and Pattern Recognition 2025,簡(jiǎn)稱CVPR2025)在美國(guó)田納西州召開(kāi)。值得買科技與中國(guó)人民大學(xué)高瓴人工智能學(xué)院在多模態(tài)領(lǐng)域的最新聯(lián)合研究成果《圖像轉(zhuǎn)有聲視頻》(《Animate and Sound an Image》)成功入選CVPR2025會(huì)議。

此次成果首次提出了一種從靜態(tài)圖像直接生成同步音視頻內(nèi)容的生成框架——JointDiT(Joint Diffusion Transformer),實(shí)現(xiàn)了從圖像到“動(dòng)態(tài)視頻+聲音”的高質(zhì)量聯(lián)合生成。據(jù)悉,此次研究成果是繼去年雙方發(fā)布《TiVA:Time-aligned Video-to-Audio Generation》《BSharedRAG:Backbone Shared Retrieval-Augmented Generation for the E-commerce Domain》《MuKA:Multimodal Knowledge Augmented Visual Information-Seeking》后的又一創(chuàng)新探索,不僅展現(xiàn)了值得買科技在AIGC方面的技術(shù)創(chuàng)新突破,更為AI多模態(tài)的高質(zhì)量發(fā)展提供了新的思路與啟發(fā)。

CVPR 是由IEEE(電氣電子工程師學(xué)會(huì) the Institute of Electrical and Electronics Engineers)與CVF(計(jì)算機(jī)視覺(jué)基金會(huì) Computer Vision Foundation)聯(lián)合主辦的計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的頂級(jí)年度會(huì)議,每年吸引來(lái)自學(xué)術(shù)界、工業(yè)界和政府部門的數(shù)千名與會(huì)者,展示、學(xué)習(xí)和交流視覺(jué)技術(shù)的最新創(chuàng)新成果。CVPR2025涵蓋了從基礎(chǔ)計(jì)算機(jī)視覺(jué)理論到自動(dòng)駕駛、醫(yī)學(xué)成像和生成式人工智能等領(lǐng)域前沿應(yīng)用的方方面面,被錄用的論文代表了該領(lǐng)域最具影響力且經(jīng)過(guò)嚴(yán)格同行評(píng)審的研究成果,以此引領(lǐng)技術(shù)潮流。

值得買科技與中國(guó)人民大學(xué)人大高瓴人工智能學(xué)院聯(lián)合開(kāi)展的AIGC研究自2023年6月發(fā)起,結(jié)合值得買科技的集群算力、消費(fèi)數(shù)據(jù)和應(yīng)用場(chǎng)景能力,以及人大高瓴的科研和人才能力,在AI內(nèi)容創(chuàng)作、多模態(tài)生成等方面共同開(kāi)展AI前沿研究,加速技術(shù)探索和應(yīng)用。

人大高瓴人工智能學(xué)院王希華表示,長(zhǎng)期以來(lái),生成式模型的研究主要在單一模態(tài)的內(nèi)容合成上,也取得了顯著進(jìn)展,探索了各種模型架構(gòu)、生成范式以及擴(kuò)展性特性等,以提升視頻或音頻的質(zhì)量,如生成高保真的視頻畫(huà)面或自然的音頻片段。但模型在生成自然融合的有聲視頻時(shí)卻存在明顯不足,視頻和音頻分離的生成過(guò)程,往往導(dǎo)致畫(huà)面和聲音語(yǔ)義不匹配或者時(shí)間上不同步,目前將兩個(gè)模態(tài)聯(lián)合生成自然有聲視頻的研究,缺乏對(duì)統(tǒng)一建模機(jī)制的探索。

基于此,此次的聯(lián)合創(chuàng)新成果《圖像轉(zhuǎn)有聲視頻》(《Animate and Sound an Image》)首次提出并系統(tǒng)定義了圖像到有聲視頻生成(Image-to-Sounding-Video,I2SV)這一新任務(wù):讓靜態(tài)圖像“動(dòng)”起來(lái)的同時(shí),生成與之語(yǔ)義匹配、時(shí)間同步的音頻內(nèi)容。同時(shí),這一成果還提出了一種新穎的內(nèi)容生成框架JointDiT(Joint Diffusion Transformer),并具體闡述了如何利用兩個(gè)強(qiáng)大的單模態(tài)預(yù)訓(xùn)練擴(kuò)散模型(一個(gè)視頻生成器,一個(gè)音頻生成器),構(gòu)建統(tǒng)一的聯(lián)合生成框架,并實(shí)現(xiàn)多模態(tài)協(xié)同生成。

JointDiT不僅采用了“重組+協(xié)同”的創(chuàng)新思路,構(gòu)建高效的圖像轉(zhuǎn)聲音視頻模型,實(shí)現(xiàn)了真正協(xié)同的多模態(tài)生成,創(chuàng)新性地實(shí)現(xiàn)了從一張圖片直接生成同步音視頻內(nèi)容;還設(shè)計(jì)了感知式聯(lián)合注意力機(jī)制(Perceiver Joint Attention),使用模態(tài)特定的Query-Key-Value映射,實(shí)現(xiàn)對(duì)視頻幀與音頻序列之間的細(xì)粒度互動(dòng)建模,有效提升同步與語(yǔ)義一致性;同時(shí)提出聯(lián)合無(wú)分類器引導(dǎo)(JointCFG)及其增強(qiáng)版JointCFG*,在保留圖像條件引導(dǎo)對(duì)齊的同時(shí),強(qiáng)化了模型對(duì)跨模態(tài)之間交互的關(guān)注,進(jìn)而提升了音視頻之間的語(yǔ)義一致性與時(shí)間同步性,該策略不僅優(yōu)化了生成質(zhì)量,還顯著增強(qiáng)了視頻的動(dòng)態(tài)表現(xiàn)力。

研究團(tuán)隊(duì)在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集(AVSync15、Landscape和GreatestHits)上進(jìn)行了大量測(cè)試,從視頻質(zhì)量、音頻質(zhì)量、同步性和語(yǔ)義一致性四個(gè)維度全面評(píng)估。

結(jié)果顯示,JointDiT在視頻質(zhì)量與音頻自然度方面均實(shí)現(xiàn)顯著提升,F(xiàn)VD、FAD等核心指標(biāo)全面優(yōu)于基于pipeline組合的多階段方法。音視頻同步性表現(xiàn)優(yōu)異,在自動(dòng)評(píng)價(jià)指標(biāo)上與當(dāng)前最強(qiáng)的音頻驅(qū)動(dòng)視頻生成模型持平。語(yǔ)義匹配也更為精準(zhǔn),視頻畫(huà)面與聲音的“含義”更加契合。在用戶主觀打分測(cè)試中,JointDiT在“視頻質(zhì)量”“音頻質(zhì)量”“語(yǔ)義一致性”“同步性”與“整體效果”五項(xiàng)評(píng)分中均排名第一,領(lǐng)先第二名近20%。

人大高瓴人工智能學(xué)院長(zhǎng)聘副教授宋睿華表示:“接下來(lái),研究團(tuán)隊(duì)計(jì)劃將JointDiT擴(kuò)展至圖像、文本、音頻、視頻四模態(tài)的聯(lián)合建模,為構(gòu)建更通用、更智能的多模態(tài)生成系統(tǒng)奠定基礎(chǔ)?!?

作為一家AI與內(nèi)容驅(qū)動(dòng)的數(shù)字消費(fèi)服務(wù)集團(tuán),值得買科技在發(fā)展的不同階段,都注重用先進(jìn)技術(shù)來(lái)驅(qū)動(dòng)業(yè)務(wù)發(fā)展,因此在AI浪潮來(lái)臨之時(shí)就搶先布局,早在2023年就將AIGC列為集團(tuán)重點(diǎn)戰(zhàn)略項(xiàng)目,在2024年發(fā)布全面AI戰(zhàn)略,并開(kāi)啟了一場(chǎng)全面的AI探索與革新。其中,與學(xué)術(shù)界合作共同進(jìn)行AI前沿探索,也是值得買科技全面AI戰(zhàn)略中的重要一環(huán)。據(jù)悉,值得買科技與人大高瓴團(tuán)隊(duì)正在制定開(kāi)源計(jì)劃,讓更多開(kāi)發(fā)者可以更便利地應(yīng)用這一成果。

當(dāng)前,值得買科技已形成了從技術(shù)底層、產(chǎn)品形態(tài)到生態(tài)共建的全面AI布局:不僅構(gòu)建了以AIUC引擎為代表的底層AI技術(shù)能力;還推出了面向用戶、品牌、創(chuàng)作者及大模型的AI產(chǎn)品和解決方案,值得一提的是,面向用戶的“什么值得買”平臺(tái)借助AI能力在今年5月全面升級(jí)為“什么值得買”GEN2,“小值”也全面升級(jí)為AI購(gòu)物管家“張大媽”。同時(shí),從2024年開(kāi)始,值得買科技還將自身沉淀的AI能力開(kāi)放給合作伙伴,共建高質(zhì)量AI生態(tài),今年更是通過(guò)打造值得買科技“海納”MCP Server,為AI生態(tài)中的各類應(yīng)用提供消費(fèi)領(lǐng)域的能力增強(qiáng)服務(wù),以期成為智能體時(shí)代消費(fèi)領(lǐng)域的基礎(chǔ)設(shè)施,促進(jìn)行業(yè)生態(tài)繁榮。

未來(lái),值得買科技將堅(jiān)持全面AI戰(zhàn)略,并將AI應(yīng)用研究作為戰(zhàn)略重點(diǎn),進(jìn)一步將前沿AI技術(shù)轉(zhuǎn)化為實(shí)際生產(chǎn)力,推動(dòng)“AI+消費(fèi)”的更多可能性;同時(shí)攜手更廣泛、更多領(lǐng)域的合作伙伴,共同探索AI在學(xué)術(shù)、技術(shù)、商業(yè)上的創(chuàng)新和應(yīng)用,共同推動(dòng)AI生態(tài)創(chuàng)新協(xié)同發(fā)展,為創(chuàng)造人人因消費(fèi)而幸福的美好世界做出貢獻(xiàn)。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛(ài)云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews