產(chǎn)學(xué)研用一體化發(fā)展,值得買科技與人大高瓴AIGC聯(lián)合研究成果亮相ACM MM 2024
2024-10-31 11:07:22AI云資訊1321
10月28日至11月1日,2024國際多媒體會議(ACM International Conference on Multimedia 2024,簡稱ACM MM 2024)在澳大利亞墨爾本舉行。中國人民大學(xué)高瓴人工智能學(xué)院宋睿華團(tuán)隊代表王希華受邀進(jìn)行口頭報告,分享了和值得買科技聯(lián)合開展的多模態(tài)領(lǐng)域研究成果《TiVA:時序同步的視頻到音頻生成》(TiVA:Time-aligned Video-to-Audio Generation),詳細(xì)闡釋了TiVA研究過程、框架及實現(xiàn)路徑,并指出該項研究為當(dāng)下多模態(tài)領(lǐng)域視頻到音頻同步生成的技術(shù)難題提供了一套高效解決方案,提升了AIGC內(nèi)容生成方面的速度、質(zhì)量和智能化水平。
ACM MM大會由國際計算機(jī)協(xié)會(ACM)發(fā)起,是國際多媒體處理、分析與計算領(lǐng)域最具影響力的國際頂級會議,也是中國計算機(jī)學(xué)會(CCF)推薦的多媒體領(lǐng)域唯一的A類國際學(xué)術(shù)會議,涵蓋了多媒體研究的所有領(lǐng)域,包括各種媒體模式、解決技術(shù)和實際挑戰(zhàn)。
值得買科技與人大高瓴人工智能學(xué)院聯(lián)合開展的AIGC研究自2023年6月發(fā)起,結(jié)合值得買科技的集群算力、歷史數(shù)據(jù)和應(yīng)用場景能力,以及人大高瓴的科研和人才能力,在AI內(nèi)容創(chuàng)作、多模態(tài)生成等方面共同開展AI前沿研究,加速技術(shù)探索和應(yīng)用。此次在ACM MM大會上進(jìn)行報告的TiVA研究成果已經(jīng)獲得國家發(fā)明專利授權(quán),專利權(quán)為值得買科技和中國人民大學(xué)共同擁有。
在ACM MM2024大會的報告中,王希華介紹,TiVA框架為AIGC內(nèi)容生成帶來了新工具,不僅能實現(xiàn)從視頻到音頻的高質(zhì)量生成,速度還加快了約40%,“而且在語義匹配和時間同步的精度上,TiVA還擊敗了當(dāng)前最先進(jìn)的技術(shù)。”其核心在于音頻布局的創(chuàng)新使用,通過低分辨率的Mel頻譜圖來提供粗略的音頻結(jié)構(gòu)布局,幫助模型更好地理解和預(yù)測聲音的起始和結(jié)束時間,從而實現(xiàn)更精確的時間對齊。
在具體實現(xiàn)路徑方面,通過新的音頻信息表征形式Audio Layout,即極低分辨率的梅爾譜,來表示音頻的粗粒度語義和時間信息。在一個無聲視頻中,先對其視覺語義進(jìn)行編碼并預(yù)測Audio Layout,然后利用語義編碼和預(yù)測的Audio Layout作為條件信息,學(xué)習(xí)一個擴(kuò)散模型生成音頻。
除TiVA外,值得買科技與人大高瓴人工智能學(xué)院合作的另外兩項研究成果也已面世,分別是面向電商領(lǐng)域的共享基座檢索增強(qiáng)架構(gòu)(BSharedRAG:Backbone Shared Retrieval-Augmented Generation for the E-commerce Domain)、多模態(tài)知識增強(qiáng)的視覺信息查詢架構(gòu)(MuKA:Multimodal Knowledge Augmented Visual Information-Seeking)。其中,《BSharedRAG:面向電商領(lǐng)域的共享基座檢索增強(qiáng)架構(gòu)》在今年9月已被國際學(xué)術(shù)會議EMNLP2024錄用,該大會是自然語言處理和人工智能領(lǐng)域頂級國際會議之一。
值得買科技CTO王云峰介紹,與人大高瓴的聯(lián)合研究主要聚焦在多模態(tài)內(nèi)容與電商搜索增強(qiáng)兩大領(lǐng)域,正是與值得買科技的業(yè)務(wù)方向直接相關(guān)?!扒罢吣苤μ剿鲀?yōu)質(zhì)消費內(nèi)容的更多可能性,而后者能推動整個電商的進(jìn)一步提效?!?
具體而言,在檢索增強(qiáng)生成RAG(Retrieval Augmented Generation)方面,電商領(lǐng)域存在大量長尾的用戶查詢信息且更新頻繁,因此檢索增強(qiáng)生成系統(tǒng)在用戶意圖識別、問答效率提升上的作用極為重要。而當(dāng)前大多數(shù)系統(tǒng)采用檢索和生成的獨立模塊,檢索任務(wù)和生成任務(wù)無法相互受益和提升性能。針對此問題,值得買科技與人大高瓴聯(lián)合研究團(tuán)隊提出了一種新的共享基座參數(shù)的RAG框架,即BSharedRAG架構(gòu)。在此架構(gòu)中,檢索器和生成器共享一個領(lǐng)域特定的共享基座模型,以確保兩個組件能夠有效地協(xié)同工作。
▲BSharedRAG架構(gòu)的訓(xùn)練和推理概述
通過這種設(shè)計,BSharedRAG框架能夠?qū)崿F(xiàn)檢索和生成任務(wù)之間有效的知識轉(zhuǎn)移,從而提高在特定領(lǐng)域的性能,尤其是在需要大量領(lǐng)域特定知識和頻繁更新信息的場景中;同時,檢索器能夠提供對生成器有用的信息,而生成器的輸出又能夠反饋給檢索器,以此形成正向反饋,對未來的檢索效果進(jìn)行優(yōu)化。
在具體訓(xùn)練過程中,研究人員首先使用領(lǐng)域特定的語料庫對基礎(chǔ)模型進(jìn)行持續(xù)預(yù)訓(xùn)練,作為領(lǐng)域特定的基座模型;然后基于共享的基座模型訓(xùn)練兩個即插即用的低秩適應(yīng)(LoRA)模塊,分別最小化檢索和生成的損失。實驗結(jié)果表明,BSharedRAG在兩個數(shù)據(jù)集的檢索評估中相較基線模型分別提升了5%和13%的Hit@3(檢索內(nèi)容前三位的推薦有效率)表現(xiàn),并在電商問答領(lǐng)域?qū)Ρ然€模型提升了23%的文本生成質(zhì)量等。
王云峰表示,BSharedRAG框架已經(jīng)在什么值得買APP中進(jìn)行了應(yīng)用,尤其是在自研AI購物助手“小值”中,不僅提高了商品內(nèi)容檢索的準(zhǔn)確性,還能根據(jù)用戶提出的歷史問題進(jìn)行更精準(zhǔn)的意圖識別,從而提供更貼合需求的商品推薦,“可以說在信息豐富、檢索效率、個性化推薦和自然交互方面都起到了提效提質(zhì)的作用,讓用戶的消費決策效率更高、體驗更便捷、推薦更個性化?!?
值得一提的是,在發(fā)布BSharedRAG架構(gòu)時,雙方聯(lián)合研究團(tuán)隊還開源了一個電商領(lǐng)域的評測集,幫助研究者在統(tǒng)一基準(zhǔn)下進(jìn)行不同研究工作的效果對比,且該評測集將持續(xù)更新。將自身的科技成果和脫敏消費數(shù)據(jù)對外開源,這也與值得買科技AI戰(zhàn)略中開放、連接、共享的精神相契合。
王云峰表示,“我們認(rèn)為AI是一件值得且需要長期投入的事情,它不僅為企業(yè)構(gòu)建技術(shù)壁壘、競爭優(yōu)勢,更能帶動整個行業(yè)的繁榮與升級。因此,值得買科技不僅注重提升自身的AI能力,還與更廣泛的合作伙伴共建高質(zhì)量AI生態(tài),持續(xù)推動行業(yè)的共建共贏。”
未來,值得買科技將推動全面AI戰(zhàn)略穩(wěn)步落地,實現(xiàn)對業(yè)務(wù)的提質(zhì)增效和創(chuàng)新增長,同時還將攜手更廣泛的合作伙伴,在產(chǎn)學(xué)研用一體中持續(xù)推進(jìn)AI技術(shù)的研究與落地,為創(chuàng)造消費信息自由流動的美好世界做出貢獻(xiàn)。
相關(guān)文章
- 值得買科技與商湯科技達(dá)成戰(zhàn)略合作,共聚WAIC探索消費智能體新機(jī)遇
- 值得買科技CTO王云峰出席2025全球數(shù)字經(jīng)濟(jì)大會:以“AI+”構(gòu)建消費行業(yè)新生態(tài)
- 值得買科技與南開大學(xué)商學(xué)院AI聯(lián)合研究成果入選多個行業(yè)頂級會議
- 積極踐行“AI+ESG”,值得買科技榮膺“2025年度AI賦能可持續(xù)發(fā)展典范企業(yè)”
- 值得買科技與人大高瓴聯(lián)合研究成果入選計算機(jī)視覺頂級會議CVPR2025
- 值得買科技發(fā)布海納MCP Server:打造智能體時代的AI基礎(chǔ)設(shè)施
- 值得買科技亮相華為云生態(tài)大會:AI與云加速融合,共筑“AI+消費”生態(tài)新基建
- API調(diào)用量、商品卡片輸出量快速增長,值得買科技多場景AI服務(wù)能力凸顯
- 值得買科技與市場監(jiān)管總局發(fā)展研究中心開展戰(zhàn)略合作,協(xié)同助力營造放心消費環(huán)境
- 值得買科技AI購物助手“小值”入選“新質(zhì)生產(chǎn)力產(chǎn)業(yè)實踐創(chuàng)新案例”
- 值得買科技CTO王云峰出席2024消費盛典:AI與消費深度融合,生態(tài)位互補(bǔ)共促行業(yè)繁榮
- 以AI驅(qū)動提升個性化消費體驗,值得買科技榮獲華為云“2024 AI-Native十大先鋒實踐”案例
- 值得買科技亮相華為云零售創(chuàng)新峰會,興趣消費引領(lǐng)品牌增長
- 值得買科技再度參與中國互聯(lián)網(wǎng)企業(yè)社會責(zé)任論壇報告展示環(huán)節(jié)
- 始終堅持長期主義、積極擁抱創(chuàng)新機(jī)遇,值得買科技榮膺2024年“金橋獎”年度行穩(wěn)致遠(yuǎn)科技公司
- 產(chǎn)學(xué)研用一體化發(fā)展,值得買科技與人大高瓴AIGC聯(lián)合研究成果亮相ACM MM 2024
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 低空賦能,跨越山河,大疆運載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
- 筑牢安全芯基石,紫光同芯無線充電鑒權(quán)芯片T9系列亮相2025(秋季)亞洲充電展
- 中國移動將支持eSIM全系產(chǎn)品,釋放成長新動能
- 晟聯(lián)科:以高速互連接口IP方案賦能Scale-up 生態(tài)
人工智能產(chǎn)業(yè)
更多>>- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案