欧美米奇色,综合久久久小说

6月11日-15日，2025國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議（Conference on Computer Vision and Pattern Recognition 2025，簡(jiǎn)稱CVPR2025）在美國(guó)田納西州召開(kāi)。值得買科技與中國(guó)人民大學(xué)高瓴人工智能學(xué)院在多模態(tài)領(lǐng)域的最新聯(lián)合研究成果《圖像轉(zhuǎn)有聲視頻》（《Animate and Sound an Image》）成功入選CVPR2025會(huì)議。

此次成果首次提出了一種從靜態(tài)圖像直接生成同步音視頻內(nèi)容的生成框架——JointDiT（Joint Diffusion Transformer），實(shí)現(xiàn)了從圖像到“動(dòng)態(tài)視頻+聲音”的高質(zhì)量聯(lián)合生成。據(jù)悉，此次研究成果是繼去年雙方發(fā)布《TiVA：Time-aligned Video-to-Audio Generation》《BSharedRAG：Backbone Shared Retrieval-Augmented Generation for the E-commerce Domain》《MuKA：Multimodal Knowledge Augmented Visual Information-Seeking》后的又一創(chuàng)新探索，不僅展現(xiàn)了值得買科技在AIGC方面的技術(shù)創(chuàng)新突破，更為AI多模態(tài)的高質(zhì)量發(fā)展提供了新的思路與啟發(fā)。

CVPR 是由IEEE（電氣電子工程師學(xué)會(huì) the Institute of Electrical and Electronics Engineers）與CVF（計(jì)算機(jī)視覺(jué)基金會(huì) Computer Vision Foundation）聯(lián)合主辦的計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的頂級(jí)年度會(huì)議，每年吸引來(lái)自學(xué)術(shù)界、工業(yè)界和政府部門的數(shù)千名與會(huì)者，展示、學(xué)習(xí)和交流視覺(jué)技術(shù)的最新創(chuàng)新成果。CVPR2025涵蓋了從基礎(chǔ)計(jì)算機(jī)視覺(jué)理論到自動(dòng)駕駛、醫(yī)學(xué)成像和生成式人工智能等領(lǐng)域前沿應(yīng)用的方方面面，被錄用的論文代表了該領(lǐng)域最具影響力且經(jīng)過(guò)嚴(yán)格同行評(píng)審的研究成果，以此引領(lǐng)技術(shù)潮流。

值得買科技與中國(guó)人民大學(xué)人大高瓴人工智能學(xué)院聯(lián)合開(kāi)展的AIGC研究自2023年6月發(fā)起，結(jié)合值得買科技的集群算力、消費(fèi)數(shù)據(jù)和應(yīng)用場(chǎng)景能力，以及人大高瓴的科研和人才能力，在AI內(nèi)容創(chuàng)作、多模態(tài)生成等方面共同開(kāi)展AI前沿研究，加速技術(shù)探索和應(yīng)用。

人大高瓴人工智能學(xué)院王希華表示，長(zhǎng)期以來(lái)，生成式模型的研究主要在單一模態(tài)的內(nèi)容合成上，也取得了顯著進(jìn)展，探索了各種模型架構(gòu)、生成范式以及擴(kuò)展性特性等，以提升視頻或音頻的質(zhì)量，如生成高保真的視頻畫(huà)面或自然的音頻片段。但模型在生成自然融合的有聲視頻時(shí)卻存在明顯不足，視頻和音頻分離的生成過(guò)程，往往導(dǎo)致畫(huà)面和聲音語(yǔ)義不匹配或者時(shí)間上不同步，目前將兩個(gè)模態(tài)聯(lián)合生成自然有聲視頻的研究，缺乏對(duì)統(tǒng)一建模機(jī)制的探索。

基于此，此次的聯(lián)合創(chuàng)新成果《圖像轉(zhuǎn)有聲視頻》（《Animate and Sound an Image》）首次提出并系統(tǒng)定義了圖像到有聲視頻生成（Image-to-Sounding-Video，I2SV）這一新任務(wù)：讓靜態(tài)圖像“動(dòng)”起來(lái)的同時(shí)，生成與之語(yǔ)義匹配、時(shí)間同步的音頻內(nèi)容。同時(shí)，這一成果還提出了一種新穎的內(nèi)容生成框架JointDiT（Joint Diffusion Transformer），并具體闡述了如何利用兩個(gè)強(qiáng)大的單模態(tài)預(yù)訓(xùn)練擴(kuò)散模型（一個(gè)視頻生成器，一個(gè)音頻生成器），構(gòu)建統(tǒng)一的聯(lián)合生成框架，并實(shí)現(xiàn)多模態(tài)協(xié)同生成。

JointDiT不僅采用了“重組+協(xié)同”的創(chuàng)新思路，構(gòu)建高效的圖像轉(zhuǎn)聲音視頻模型，實(shí)現(xiàn)了真正協(xié)同的多模態(tài)生成，創(chuàng)新性地實(shí)現(xiàn)了從一張圖片直接生成同步音視頻內(nèi)容；還設(shè)計(jì)了感知式聯(lián)合注意力機(jī)制（Perceiver Joint Attention），使用模態(tài)特定的Query-Key-Value映射，實(shí)現(xiàn)對(duì)視頻幀與音頻序列之間的細(xì)粒度互動(dòng)建模，有效提升同步與語(yǔ)義一致性；同時(shí)提出聯(lián)合無(wú)分類器引導(dǎo)（JointCFG）及其增強(qiáng)版JointCFG*，在保留圖像條件引導(dǎo)對(duì)齊的同時(shí)，強(qiáng)化了模型對(duì)跨模態(tài)之間交互的關(guān)注，進(jìn)而提升了音視頻之間的語(yǔ)義一致性與時(shí)間同步性，該策略不僅優(yōu)化了生成質(zhì)量，還顯著增強(qiáng)了視頻的動(dòng)態(tài)表現(xiàn)力。

研究團(tuán)隊(duì)在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集（AVSync15、Landscape和GreatestHits）上進(jìn)行了大量測(cè)試，從視頻質(zhì)量、音頻質(zhì)量、同步性和語(yǔ)義一致性四個(gè)維度全面評(píng)估。

結(jié)果顯示，JointDiT在視頻質(zhì)量與音頻自然度方面均實(shí)現(xiàn)顯著提升，F(xiàn)VD、FAD等核心指標(biāo)全面優(yōu)于基于pipeline組合的多階段方法。音視頻同步性表現(xiàn)優(yōu)異，在自動(dòng)評(píng)價(jià)指標(biāo)上與當(dāng)前最強(qiáng)的音頻驅(qū)動(dòng)視頻生成模型持平。語(yǔ)義匹配也更為精準(zhǔn)，視頻畫(huà)面與聲音的“含義”更加契合。在用戶主觀打分測(cè)試中，JointDiT在“視頻質(zhì)量”“音頻質(zhì)量”“語(yǔ)義一致性”“同步性”與“整體效果”五項(xiàng)評(píng)分中均排名第一，領(lǐng)先第二名近20%。

人大高瓴人工智能學(xué)院長(zhǎng)聘副教授宋睿華表示：“接下來(lái)，研究團(tuán)隊(duì)計(jì)劃將JointDiT擴(kuò)展至圖像、文本、音頻、視頻四模態(tài)的聯(lián)合建模，為構(gòu)建更通用、更智能的多模態(tài)生成系統(tǒng)奠定基礎(chǔ)?！?

作為一家AI與內(nèi)容驅(qū)動(dòng)的數(shù)字消費(fèi)服務(wù)集團(tuán)，值得買科技在發(fā)展的不同階段，都注重用先進(jìn)技術(shù)來(lái)驅(qū)動(dòng)業(yè)務(wù)發(fā)展，因此在AI浪潮來(lái)臨之時(shí)就搶先布局，早在2023年就將AIGC列為集團(tuán)重點(diǎn)戰(zhàn)略項(xiàng)目，在2024年發(fā)布全面AI戰(zhàn)略，并開(kāi)啟了一場(chǎng)全面的AI探索與革新。其中，與學(xué)術(shù)界合作共同進(jìn)行AI前沿探索，也是值得買科技全面AI戰(zhàn)略中的重要一環(huán)。據(jù)悉，值得買科技與人大高瓴團(tuán)隊(duì)正在制定開(kāi)源計(jì)劃，讓更多開(kāi)發(fā)者可以更便利地應(yīng)用這一成果。

當(dāng)前，值得買科技已形成了從技術(shù)底層、產(chǎn)品形態(tài)到生態(tài)共建的全面AI布局：不僅構(gòu)建了以AIUC引擎為代表的底層AI技術(shù)能力；還推出了面向用戶、品牌、創(chuàng)作者及大模型的AI產(chǎn)品和解決方案，值得一提的是，面向用戶的“什么值得買”平臺(tái)借助AI能力在今年5月全面升級(jí)為“什么值得買”GEN2，“小值”也全面升級(jí)為AI購(gòu)物管家“張大媽”。同時(shí)，從2024年開(kāi)始，值得買科技還將自身沉淀的AI能力開(kāi)放給合作伙伴，共建高質(zhì)量AI生態(tài)，今年更是通過(guò)打造值得買科技“海納”MCP Server，為AI生態(tài)中的各類應(yīng)用提供消費(fèi)領(lǐng)域的能力增強(qiáng)服務(wù)，以期成為智能體時(shí)代消費(fèi)領(lǐng)域的基礎(chǔ)設(shè)施，促進(jìn)行業(yè)生態(tài)繁榮。

未來(lái)，值得買科技將堅(jiān)持全面AI戰(zhàn)略，并將AI應(yīng)用研究作為戰(zhàn)略重點(diǎn)，進(jìn)一步將前沿AI技術(shù)轉(zhuǎn)化為實(shí)際生產(chǎn)力，推動(dòng)“AI+消費(fèi)”的更多可能性；同時(shí)攜手更廣泛、更多領(lǐng)域的合作伙伴，共同探索AI在學(xué)術(shù)、技術(shù)、商業(yè)上的創(chuàng)新和應(yīng)用，共同推動(dòng)AI生態(tài)創(chuàng)新協(xié)同發(fā)展，為創(chuàng)造人人因消費(fèi)而幸福的美好世界做出貢獻(xiàn)。

精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

值得買科技與人大高瓴聯(lián)合研究成果入選計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議CVPR2025

相關(guān)文章

人工智能企業(yè)

人工智能硬件

人工智能產(chǎn)業(yè)

人工智能技術(shù)