騰訊微視憑BLENDer模型斬獲VCR競賽榜第一
2020-11-30 15:41:55AI云資訊575
視覺常識推理VCR (Visual Commonsense Reasoning )是人工智能領(lǐng)域的前沿?zé)狳c問題,我國《新一代人工智能發(fā)展規(guī)劃》中也將從處理類型單一的數(shù)據(jù)到跨媒體認(rèn)知、學(xué)習(xí)和推理的“跨媒體智能”納入五大智能方向。
近日,騰訊微視視頻理解團(tuán)隊在多模態(tài)理解領(lǐng)域最權(quán)威排行榜之一VCR任務(wù)中榮登榜首。該團(tuán)隊提出的BLENDer(BimodaL ENcoDer)模型超越百度、谷歌、微軟、Facebook等多家研究機(jī)構(gòu)的模型效果,一舉成為單、多模型的三項指標(biāo)第一,值得注意的是,BLENDer僅憑單模型效果便超越了此前榜單上的多模型最好效果,賦予了機(jī)器更強大的理解和認(rèn)知能力,并深度應(yīng)用到短視頻領(lǐng)域。
趕超百度、谷歌等,騰訊微視AI團(tuán)隊登頂VCR榜首
VisualCommonsense Reasoning (VCR)任務(wù)于2018年由華盛頓大學(xué)的研究人員首次提出,任務(wù)旨在將圖像和自然語言理解二者結(jié)合,驗證多模態(tài)模型高階認(rèn)知和常識推理的能力,讓機(jī)器擁有“看圖說話”的能力, 例如VCR能夠通過圖片中人物的行為,進(jìn)一步推理出其動機(jī)、情緒等信息。VCR榜單是多模態(tài)理解領(lǐng)域最權(quán)威的排行榜之一,也是當(dāng)前圖像理解和多模態(tài)領(lǐng)域?qū)哟巫钌睢㈤T檻最高的任務(wù)之一,吸引了微軟、谷歌、Facebook、百度、UCLA等國內(nèi)外公司和研究機(jī)構(gòu)紛紛參與。
此次拔得頭籌的單模型BLENDer來自于騰訊微視視頻理解團(tuán)隊,超越上一屆榜首百度團(tuán)隊的多模態(tài)預(yù)訓(xùn)練模型 ERNIE-ViL-large成為新的VCR榜單霸主。
據(jù)相關(guān)負(fù)責(zé)人介紹,BLENDer模型已經(jīng)應(yīng)用到騰訊微視產(chǎn)品中,賦予了平臺更強大的認(rèn)知能力,使得包含文本、音頻、視頻等多種媒體信息在內(nèi)的短視頻內(nèi)容,能夠更好的做到分類和識別,更加精準(zhǔn)理解和挖掘這些海量的跨媒體信息。例如當(dāng)騰訊微視用戶創(chuàng)作視頻后平臺可識別內(nèi)容并精準(zhǔn)推薦適合的話題,也能根據(jù)內(nèi)容屬性快速推薦給感興趣的用戶,增強創(chuàng)作內(nèi)容的曝光。
騰訊微視視頻理解團(tuán)隊提出的單模型BLENDer,是基于前沿的視覺語言Bert模型,將整個學(xué)習(xí)過程分成三個階段,最終將任務(wù)的三項問答準(zhǔn)確率一舉提高到了81.6, 86.4, 70.8的水平,僅是BLENDer單模型上的表現(xiàn)已經(jīng)超過此前各業(yè)界公司和研究機(jī)構(gòu)的多模型融合效果。
在BLENDer模型中,第一階段以NLP中的Bert模型為起點,結(jié)合海量數(shù)據(jù)中抽取得到的數(shù)百萬張圖片和對應(yīng)描述文本作為BLENDer的輸入進(jìn)行多模態(tài)訓(xùn)練;第二階段,在視覺常識推理數(shù)據(jù)集上學(xué)習(xí)電影中的場景和情節(jié),使模型在新數(shù)據(jù)上獲得更好的遷移能力;第三階段,引入最終問答任務(wù),讓BLENDer利用已有的知識和常識對現(xiàn)有問題進(jìn)行人物-人物、人物-場景之間關(guān)系的挖掘和關(guān)聯(lián)進(jìn)行推理,得到最終的答案。
騰訊微視將人工智能技術(shù)賦能短視頻
一直以來,騰訊微視高度關(guān)注技術(shù)研發(fā),騰訊微視視頻理解團(tuán)隊更是長期深耕多模態(tài)語義理解領(lǐng)域,持續(xù)進(jìn)行技術(shù)突破和落地,將相關(guān)技術(shù)應(yīng)用在海量圖像、視頻、文本等跨媒體信息的認(rèn)知推理中。
同時,騰訊微視團(tuán)隊也不斷從業(yè)務(wù)出發(fā)探索前沿領(lǐng)域,并將人工智能技術(shù)應(yīng)用到短視頻生態(tài)中,貫穿內(nèi)容創(chuàng)作、內(nèi)容審核以及內(nèi)容分發(fā)的各個環(huán)節(jié)。
在內(nèi)容創(chuàng)作環(huán)節(jié),騰訊微視將3D人臉、人體、GAN等AI技術(shù)結(jié)合AR技術(shù)輔助用戶進(jìn)行內(nèi)容創(chuàng)作,讓創(chuàng)作過程更加便捷、有趣和普惠;在視頻審核環(huán)節(jié),騰訊微視借助圖像檢測、分類、多模態(tài)理解等AI技術(shù)精準(zhǔn)識別視頻內(nèi)容,提升審核效率,使得用戶生產(chǎn)的內(nèi)容最快時間觸達(dá)消費者,目前騰訊微視內(nèi)容處理效率已取得業(yè)界領(lǐng)先水平;而在視頻分發(fā)環(huán)節(jié),騰訊微視借助AI技術(shù)從非結(jié)構(gòu)化的圖像、音頻、文本數(shù)據(jù)中提取結(jié)構(gòu)化信息輸出,如標(biāo)簽、特征等,支撐分發(fā)精準(zhǔn)匹配用戶。
未來,人工智能將具備更加多元、深度的交流學(xué)習(xí)能力,而技術(shù)的創(chuàng)新和精進(jìn)將進(jìn)一步推動AI技術(shù)在短視頻業(yè)務(wù)中智能交互場景的落地。
相關(guān)文章
- 騰訊湯道生:打造智能化、全球化雙引擎,助力企業(yè)穩(wěn)增長
- 2025騰訊全球數(shù)字生態(tài)大會定檔9月16日 萬興科技擬出席騰訊云國際出海峰會
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 騰訊音樂TMEA 盛典:以音樂共鳴鏈接生活,讓中國聲音走向世界
- 騰訊地圖即將發(fā)布AI新品,解鎖“AI+時空智能”產(chǎn)業(yè)新路徑
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 云原生應(yīng)用保護(hù)能力獲認(rèn)可!騰訊云再次入選權(quán)威研報代表廠商
- 騰訊云論文入選數(shù)據(jù)庫頂會VLDB 2025,REDSQL技術(shù)攻克NL2SQL難點
- 騰訊跨端開發(fā)框架Kuikly全面適配鴻蒙5并開源,助力應(yīng)用開發(fā)降本增效
- IDC MarketScape:騰訊云位居國內(nèi)生成式AI數(shù)據(jù)基礎(chǔ)設(shè)施“領(lǐng)導(dǎo)者”象限
- 騰訊Youtu-Agent開源!像聊天一樣生成Agent
- AI時代,架構(gòu)師如何破局成長?騰訊云架構(gòu)師技術(shù)沙龍圓滿收官
- 騰訊會議打通騰訊元寶,“AI紀(jì)要”實現(xiàn)開會邊開邊總結(jié)
- 連續(xù)三年參展!騰訊游戲安全亮相Gamescom 2025并與韓國知名游戲廠商達(dá)成合作
- 海亮科技x騰訊教育 聯(lián)合亮相全球盛會!
- 騰訊云與全球手游巨頭Voodoo達(dá)成合作,共助小游戲品質(zhì)升級
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計算”論壇圓滿召開——攜產(chǎn)界實踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機(jī)器人技能大賽在滬啟動,助推智能建造實戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機(jī)賦能中國打印
- 神眸榮獲快手“品牌標(biāo)桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動AI應(yīng)用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機(jī)場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案