百度AI原力再爆發(fā)!全新力作多模態(tài)模型ERNIE-ViL取得人工智能新突破
2020-07-07 11:52:47AI云資訊1669
賦予機器“認(rèn)知”能力一直以來便是人工智能中最具挑戰(zhàn)的難題,如今這個難題隨著百度ERNIE新模型的推出而逐漸有了一個較為清晰的答案。
近日,百度提出了知識增強的視覺-語言預(yù)訓(xùn)練模型ERNIE-ViL,首次將場景圖知識融入多模態(tài)預(yù)訓(xùn)練,大幅提升了機器“理解人類”的能力。該模型不僅取得了5項多模態(tài)任務(wù)的最優(yōu)解(SOTA),更是超越Google、Facebook等科技巨頭,登頂國際權(quán)威榜單——視覺常識推理任務(wù)榜(VCR)。
百度新模型ERNIE-GEN取得 5項英文權(quán)威數(shù)據(jù)集SOTA
夜以繼日的攻堅,讓百度ERNIE此次在多模態(tài)語義理解領(lǐng)域取得了重大突破,不僅為多模態(tài)語義理解領(lǐng)域研究提供了新的思路,而且賦予了機器更加強大的“認(rèn)知”能力,讓AI技術(shù)的適用性進(jìn)一步得到加強,為賦能各行各業(yè)提供了堅實的技術(shù)基礎(chǔ)。
超越Google、Facebook,百度ERNIE再度登頂
從誕生至今,百度ERNIE已經(jīng)取得了一系列傲人的戰(zhàn)績。先是登頂自然語言處理領(lǐng)域最權(quán)威的GLUE評測榜單,后豪取全球規(guī)模最大的語義評測比賽 SemEval 5項世界冠軍,再到如今超越Google、Facebook,摘得業(yè)內(nèi)權(quán)威榜單——視覺常識推理(Visual Commonsense Reasoning)任務(wù)榜桂冠,百度ERNIE實力由此可見一斑。
視覺常識推理任務(wù)是華盛頓大學(xué)2018年提出,旨在驗證多模態(tài)模型高階認(rèn)知和常識推理的能力,其榜是單多模態(tài)領(lǐng)域最權(quán)威的排行榜之一。
視覺常識推理示意圖
該榜單的產(chǎn)生也頗具趣味性,其是由華盛頓大學(xué)和艾倫人工智能研究所的研究者聯(lián)合創(chuàng)建了一個數(shù)據(jù)集,包含了十幾萬道專門為機器準(zhǔn)備的類似“看圖問答”的測試題,以考驗人工智能在這方面的能力。
可別小瞧“看圖問答”的難度,雖然對于人類來說,數(shù)據(jù)集里面的題目輕輕松松就能拿下90多分,但對于機器來說,卻有著不小的難度,在數(shù)據(jù)集剛出來的時候,表現(xiàn)最好的人工智能訓(xùn)練模型也不過60多分。
而這則吸引了微軟、谷歌、Facebook等公司及UCLA、佐治亞理工學(xué)院等頂尖機構(gòu)參與,紛紛發(fā)起挑戰(zhàn),由此形成了VCR排行榜(VCR Leaderboard)。此次百度ERNIE-ViL也參戰(zhàn)在列,并且憑借強大的實力一舉奪得單模型第一的成績,并在Q->AR聯(lián)合任務(wù)上以領(lǐng)先榜單第二名3.7個百分點的成績登頂,力壓谷歌、Facebook等頂尖科技公司一頭。
除此之外,百度ERNIE-ViL在視覺問答、跨模態(tài)圖片檢索、 跨模態(tài)文本檢索、 引用表達(dá)式理解等5項任務(wù)上也刷新了SOTA結(jié)果,這意味著百度的相關(guān)算法已實現(xiàn)當(dāng)前最優(yōu)。
硬核技術(shù),讓機器更懂人類
無論是奪得排行榜第一,還是刷新5項SOTA,都彰顯了此次百度提出的多模態(tài)模型ERNIE-ViL在技術(shù)層面的硬核。
一直以來,讓機器具備像人類一樣的理解和思考能力是科研人竭力想要攻破的難題,而這需要機器具備語言、語音、視覺等多模態(tài)語義理解能力。此次百度提出的模型ERNIE-ViL,其將場景圖知識融入到視覺-語言模型的預(yù)訓(xùn)練過程中,顯著增強了機器跨模態(tài)的語義理解能力。
視覺-語言預(yù)訓(xùn)練技術(shù)的目標(biāo)是讓人工智能學(xué)習(xí)視覺-語言模態(tài)之間的語義對齊,通俗來說,就是讓人工智能更準(zhǔn)確地描述出場景中的內(nèi)容,也就是“看圖說話”。而現(xiàn)有的預(yù)訓(xùn)練方法尚處早期,使得機器只能簡單識別視覺場景中的物體,而無法詳述其屬性(如顏色)以及物體之間的聯(lián)系(如上下)。
百度ERNIE-ViL的提出則填補了這一技術(shù)空白,依托于ERNIE-ViL,機器不僅可以識別場景圖中物體,還可識別屬性以及物體之間的關(guān)聯(lián),極大提升了機器的“識圖”能力。
該項技術(shù)突破,大幅提升了AI聽懂、看懂、理解環(huán)境的能力,進(jìn)一步拓寬了其應(yīng)用場景。如果說原來的人工智能只能運用于基礎(chǔ)工作,如今,依托于百度ERNIE,人工智能將進(jìn)一步推動在各行各業(yè)的應(yīng)用,比如人機交互、搜索引擎、用戶風(fēng)控等場景,提升行業(yè)效率。
值得一提的是,百度ERNIE-ViL還可以根據(jù)上下文對場景中的物體、屬性、關(guān)系進(jìn)行常識推理,這意味機器已經(jīng)可以充分理解事物之間的聯(lián)系。事實也的確如此,相比于其他語言-視覺模型,百度ERNIE-ViL在預(yù)測文中表述的細(xì)粒度語義詞(物體、屬性、關(guān)系)時,表現(xiàn)更為優(yōu)越,準(zhǔn)確率分別提升了2.12%、1.31% 和 6.00%。
短短一年多時間,依托百度大腦和百度飛槳強大的技術(shù)平臺能力以及龐大的數(shù)據(jù)資源,百度ERNIE完成了多次迭代,同時在自然語言生成、語言-視覺等方面推出了全新的模型,提供多模態(tài)語義理解研究新思路的同時,極大推動了人工智能技術(shù)的發(fā)展。
深入理解語言,賦予機器“認(rèn)知”能力,讓機器真正具備人類的思考和理解能力意義重大,這是推動人工智能更好、更快落地的關(guān)鍵之處。隨著百度ERNIE技術(shù)的不斷迭代,以及不斷探索多模態(tài)語義理解領(lǐng)域新的方向,未來人工智能不僅能更好的“理解”人類的意思,還能完成更高階的“表達(dá)”,以此推動人工智能技術(shù)賦能實體產(chǎn)業(yè),加快國家步入智能化時代的步伐。
相關(guān)文章
- 百度AI又拿第一!百度搜索碾壓式登頂AI產(chǎn)品榜國內(nèi)總榜
- 6月AI產(chǎn)品榜出爐,百度AI達(dá)成三連冠!
- 標(biāo)貝科技亮相Create 2024百度AI開發(fā)者大會
- 百度AI開發(fā)者大會為何只選跨越速運 科技實力+定制服務(wù)給答案
- 百度AI技術(shù)賦能,極越汽車機器人引領(lǐng)智能汽車3.0時代
- 李彥宏:百度AI全面賦能 汽車機器人極越01智商、情商雙在線
- 百度AI共創(chuàng)計劃:扶持10萬創(chuàng)作者變現(xiàn)收入超30億
- 百度副總裁王穎:百度AI助力數(shù)字出版行業(yè)生產(chǎn)力變革
- Style3D助力百度AI數(shù)字人希加加,以百變造型亮相2022百度世界大會
- 百度AI專利申請量首破一萬件大關(guān),增幅39%,連續(xù)四年居國內(nèi)首位
- 做百度AI工程師,還要會“相?!保?/a>
- 2021全國人工智能師資培訓(xùn)走進(jìn)廈門大學(xué),百度AI人才培養(yǎng)再發(fā)力!
- 百度AI師資培訓(xùn)蘭州站啟動 社會科學(xué)家的第一節(jié)人工智能課來了!
- 百度AI中臺賦能電力動力行業(yè),攜手山東電力打造智慧動力新基建
- 百度AI交互專利榮獲專利金獎,邁入智能交互新時代
- 全方位參與WAIC世界人工智能大會 百度AI即將重磅亮相上海
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計算”論壇圓滿召開——攜產(chǎn)界實踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機器人技能大賽在滬啟動,助推智能建造實戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機賦能中國打印
- 神眸榮獲快手“品牌標(biāo)桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動AI應(yīng)用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案