精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

產(chǎn)學(xué)研用一體化發(fā)展,值得買科技與人大高瓴AIGC聯(lián)合研究成果亮相ACM MM 2024

2024-10-31 11:07:22AI云資訊1321

10月28日至11月1日,2024國際多媒體會議(ACM International Conference on Multimedia 2024,簡稱ACM MM 2024)在澳大利亞墨爾本舉行。中國人民大學(xué)高瓴人工智能學(xué)院宋睿華團(tuán)隊代表王希華受邀進(jìn)行口頭報告,分享了和值得買科技聯(lián)合開展的多模態(tài)領(lǐng)域研究成果《TiVA:時序同步的視頻到音頻生成》(TiVA:Time-aligned Video-to-Audio Generation),詳細(xì)闡釋了TiVA研究過程、框架及實現(xiàn)路徑,并指出該項研究為當(dāng)下多模態(tài)領(lǐng)域視頻到音頻同步生成的技術(shù)難題提供了一套高效解決方案,提升了AIGC內(nèi)容生成方面的速度、質(zhì)量和智能化水平。

ACM MM大會由國際計算機(jī)協(xié)會(ACM)發(fā)起,是國際多媒體處理、分析與計算領(lǐng)域最具影響力的國際頂級會議,也是中國計算機(jī)學(xué)會(CCF)推薦的多媒體領(lǐng)域唯一的A類國際學(xué)術(shù)會議,涵蓋了多媒體研究的所有領(lǐng)域,包括各種媒體模式、解決技術(shù)和實際挑戰(zhàn)。

值得買科技與人大高瓴人工智能學(xué)院聯(lián)合開展的AIGC研究自2023年6月發(fā)起,結(jié)合值得買科技的集群算力、歷史數(shù)據(jù)和應(yīng)用場景能力,以及人大高瓴的科研和人才能力,在AI內(nèi)容創(chuàng)作、多模態(tài)生成等方面共同開展AI前沿研究,加速技術(shù)探索和應(yīng)用。此次在ACM MM大會上進(jìn)行報告的TiVA研究成果已經(jīng)獲得國家發(fā)明專利授權(quán),專利權(quán)為值得買科技和中國人民大學(xué)共同擁有。

在ACM MM2024大會的報告中,王希華介紹,TiVA框架為AIGC內(nèi)容生成帶來了新工具,不僅能實現(xiàn)從視頻到音頻的高質(zhì)量生成,速度還加快了約40%,“而且在語義匹配和時間同步的精度上,TiVA還擊敗了當(dāng)前最先進(jìn)的技術(shù)。”其核心在于音頻布局的創(chuàng)新使用,通過低分辨率的Mel頻譜圖來提供粗略的音頻結(jié)構(gòu)布局,幫助模型更好地理解和預(yù)測聲音的起始和結(jié)束時間,從而實現(xiàn)更精確的時間對齊。

在具體實現(xiàn)路徑方面,通過新的音頻信息表征形式Audio Layout,即極低分辨率的梅爾譜,來表示音頻的粗粒度語義和時間信息。在一個無聲視頻中,先對其視覺語義進(jìn)行編碼并預(yù)測Audio Layout,然后利用語義編碼和預(yù)測的Audio Layout作為條件信息,學(xué)習(xí)一個擴(kuò)散模型生成音頻。

除TiVA外,值得買科技與人大高瓴人工智能學(xué)院合作的另外兩項研究成果也已面世,分別是面向電商領(lǐng)域的共享基座檢索增強(qiáng)架構(gòu)(BSharedRAG:Backbone Shared Retrieval-Augmented Generation for the E-commerce Domain)、多模態(tài)知識增強(qiáng)的視覺信息查詢架構(gòu)(MuKA:Multimodal Knowledge Augmented Visual Information-Seeking)。其中,《BSharedRAG:面向電商領(lǐng)域的共享基座檢索增強(qiáng)架構(gòu)》在今年9月已被國際學(xué)術(shù)會議EMNLP2024錄用,該大會是自然語言處理和人工智能領(lǐng)域頂級國際會議之一。

值得買科技CTO王云峰介紹,與人大高瓴的聯(lián)合研究主要聚焦在多模態(tài)內(nèi)容與電商搜索增強(qiáng)兩大領(lǐng)域,正是與值得買科技的業(yè)務(wù)方向直接相關(guān)?!扒罢吣苤μ剿鲀?yōu)質(zhì)消費內(nèi)容的更多可能性,而后者能推動整個電商的進(jìn)一步提效?!?

具體而言,在檢索增強(qiáng)生成RAG(Retrieval Augmented Generation)方面,電商領(lǐng)域存在大量長尾的用戶查詢信息且更新頻繁,因此檢索增強(qiáng)生成系統(tǒng)在用戶意圖識別、問答效率提升上的作用極為重要。而當(dāng)前大多數(shù)系統(tǒng)采用檢索和生成的獨立模塊,檢索任務(wù)和生成任務(wù)無法相互受益和提升性能。針對此問題,值得買科技與人大高瓴聯(lián)合研究團(tuán)隊提出了一種新的共享基座參數(shù)的RAG框架,即BSharedRAG架構(gòu)。在此架構(gòu)中,檢索器和生成器共享一個領(lǐng)域特定的共享基座模型,以確保兩個組件能夠有效地協(xié)同工作。

▲BSharedRAG架構(gòu)的訓(xùn)練和推理概述

通過這種設(shè)計,BSharedRAG框架能夠?qū)崿F(xiàn)檢索和生成任務(wù)之間有效的知識轉(zhuǎn)移,從而提高在特定領(lǐng)域的性能,尤其是在需要大量領(lǐng)域特定知識和頻繁更新信息的場景中;同時,檢索器能夠提供對生成器有用的信息,而生成器的輸出又能夠反饋給檢索器,以此形成正向反饋,對未來的檢索效果進(jìn)行優(yōu)化。

在具體訓(xùn)練過程中,研究人員首先使用領(lǐng)域特定的語料庫對基礎(chǔ)模型進(jìn)行持續(xù)預(yù)訓(xùn)練,作為領(lǐng)域特定的基座模型;然后基于共享的基座模型訓(xùn)練兩個即插即用的低秩適應(yīng)(LoRA)模塊,分別最小化檢索和生成的損失。實驗結(jié)果表明,BSharedRAG在兩個數(shù)據(jù)集的檢索評估中相較基線模型分別提升了5%和13%的Hit@3(檢索內(nèi)容前三位的推薦有效率)表現(xiàn),并在電商問答領(lǐng)域?qū)Ρ然€模型提升了23%的文本生成質(zhì)量等。

王云峰表示,BSharedRAG框架已經(jīng)在什么值得買APP中進(jìn)行了應(yīng)用,尤其是在自研AI購物助手“小值”中,不僅提高了商品內(nèi)容檢索的準(zhǔn)確性,還能根據(jù)用戶提出的歷史問題進(jìn)行更精準(zhǔn)的意圖識別,從而提供更貼合需求的商品推薦,“可以說在信息豐富、檢索效率、個性化推薦和自然交互方面都起到了提效提質(zhì)的作用,讓用戶的消費決策效率更高、體驗更便捷、推薦更個性化?!?

值得一提的是,在發(fā)布BSharedRAG架構(gòu)時,雙方聯(lián)合研究團(tuán)隊還開源了一個電商領(lǐng)域的評測集,幫助研究者在統(tǒng)一基準(zhǔn)下進(jìn)行不同研究工作的效果對比,且該評測集將持續(xù)更新。將自身的科技成果和脫敏消費數(shù)據(jù)對外開源,這也與值得買科技AI戰(zhàn)略中開放、連接、共享的精神相契合。

王云峰表示,“我們認(rèn)為AI是一件值得且需要長期投入的事情,它不僅為企業(yè)構(gòu)建技術(shù)壁壘、競爭優(yōu)勢,更能帶動整個行業(yè)的繁榮與升級。因此,值得買科技不僅注重提升自身的AI能力,還與更廣泛的合作伙伴共建高質(zhì)量AI生態(tài),持續(xù)推動行業(yè)的共建共贏。”

未來,值得買科技將推動全面AI戰(zhàn)略穩(wěn)步落地,實現(xiàn)對業(yè)務(wù)的提質(zhì)增效和創(chuàng)新增長,同時還將攜手更廣泛的合作伙伴,在產(chǎn)學(xué)研用一體中持續(xù)推進(jìn)AI技術(shù)的研究與落地,為創(chuàng)造消費信息自由流動的美好世界做出貢獻(xiàn)。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews