百度飛槳PGL-UniMP刷新3項任務記錄 登頂圖神經(jīng)網(wǎng)絡權威榜單OGB
2020-09-19 13:45:08AI云資訊963
百度又有“大動作”?9月18日,百度正式公布在圖神經(jīng)網(wǎng)絡領域取得新突破,提出融合標簽傳遞和圖神經(jīng)網(wǎng)絡的統(tǒng)一模型UniMP(Unified Message Passing),在圖神經(jīng)網(wǎng)絡權威榜單OGB(Open Graph Benchmark)取得多項榜首,引發(fā)業(yè)界關注。
Leaderboard for ogbn-products
Leaderboard for ogbn-proteins
Leaderboard for ogbn-arxiv
圖神經(jīng)網(wǎng)絡最權威榜單OGB
圖神經(jīng)網(wǎng)絡是用于圖結構數(shù)據(jù)的深度學習架構,將端到端學習與歸納推理相結合,有望解決傳統(tǒng)深度學習無法處理的因果推理、可解釋性等問題,是非常有潛力的人工智能研究方向。但是,這個領域一直缺乏規(guī)模比較大且認可度較高的數(shù)據(jù)集。目前大量的論文仍然在Cora、PubMed、Citeseer等小數(shù)據(jù)集上進行實驗,實驗的效果也沒有普適性。在此情況下,OGB(Open Graph Benchmark)應運而生:
權威性高:OGB是由斯坦福大學圖神經(jīng)網(wǎng)絡權威Jure Leskovec教授團隊建立的大規(guī)模圖學習任務的評測基準數(shù)據(jù)集,指導委員會包含Yoshua Bengio、Will Hamilton、Max Welling等業(yè)界大牛。Jure Leskovec教授在NeurlPS 2019大會的演講中正式對外發(fā)布OGB并開源,是目前公認最權威的圖學習相關基準測試數(shù)據(jù)集。
數(shù)據(jù)豐富:OGB面向不同的圖學習任務(包括節(jié)點分類,邊預測,圖分類)分別提供了多個數(shù)據(jù)集,如學術引用網(wǎng)絡、知識圖譜、分子圖、生物網(wǎng)絡等。其中最熱門的三個半監(jiān)督節(jié)點分類數(shù)據(jù)集:商品推薦ogbn-products、論文引用ogbn-arxiv和化學分子ogbn-proteins,對圖神經(jīng)網(wǎng)絡研究者有極強的吸引力。
奪榜激烈:OGB吸引了包括斯坦福、紐約大學、加州大學洛杉磯分校、康奈爾大學、亞馬遜等多個機構參與打榜;榜單上也誕生了層出不窮的新穎圖神經(jīng)網(wǎng)絡結構,如堆積112層的深度圖卷積網(wǎng)絡DeeperGCN,發(fā)表在ICML 2020的多層圖網(wǎng)絡GCNII,還有多種形式不同的圖采樣算法。
近日,百度PGL團隊創(chuàng)新提出統(tǒng)一消息傳遞圖神經(jīng)網(wǎng)絡模型UniMP,在三大半監(jiān)督節(jié)點分類數(shù)據(jù)集均榮登榜首。榜單上放出的開源代碼與論文地址如下:
UniMP:統(tǒng)一消息傳遞模型
在半監(jiān)督圖節(jié)點分類場景下,節(jié)點之間通過邊相連接,部分節(jié)點被打上標簽。任務要求模型通過監(jiān)督學習的方式,擬合被標注節(jié)點數(shù)據(jù),并對未標注的節(jié)點進行預測。如下圖所示,在一般機器學習的問題上,已標注的訓練數(shù)據(jù)在新數(shù)據(jù)的推斷上,并不能發(fā)揮直接的作用,因為數(shù)據(jù)的輸入是獨立的。然而在圖神經(jīng)網(wǎng)絡的場景下,已有的標注數(shù)據(jù)可以從節(jié)點與節(jié)點的連接中,根據(jù)圖結構關系推廣到新的未標注數(shù)據(jù)中。
一般應用于半監(jiān)督節(jié)點分類的算法分為圖神經(jīng)網(wǎng)絡和標簽傳遞算法兩類,它們都是通過消息傳遞的方式(前者傳遞特征、后者傳遞標簽)進行節(jié)點標簽的學習和預測。其中經(jīng)典標簽傳遞算法如LPA,只考慮了將標簽在圖上進行傳遞,而圖神經(jīng)網(wǎng)絡算法大多也只是使用了節(jié)點特征以及圖的鏈接信息進行分類。但是單純考慮標簽傳遞或者節(jié)點特征都是不足夠的。
百度PGL團隊提出的統(tǒng)一消息傳遞模型 UniMP,將上述兩種消息統(tǒng)一到框架中,同時實現(xiàn)了節(jié)點的特征與標簽傳遞,顯著提升了模型的泛化效果。 UniMP以Graph Transformer模型作為基礎骨架,聯(lián)合使用標簽嵌入方法,將節(jié)點特征和部分節(jié)點標簽同時輸入至模型中,從而實現(xiàn)了節(jié)點特征和標簽的同時傳遞。
簡單的加入標簽信息會帶來標簽泄漏的問題,即標簽信息即是特征又是訓練目標。實際上,標簽大部分是有順序的,例如在引用網(wǎng)絡中,論文是按照時間先后順序出現(xiàn)的,其標簽也應該有一定的先后順序。在無法得知訓練集標簽順序的情況下,UniMP提出了標簽掩碼學習方法。UniMP每一次隨機將一定量的節(jié)點標簽掩碼為未知,用部分已有的標注信息、圖結構信息以及節(jié)點特征來還原訓練數(shù)據(jù)的標簽。最終,UniMP在OGB上取得SOTA效果,并在論文的消融實驗上,驗證了方法的有效性。
屠榜背后:飛槳圖學習框架PGL加持
UniMP基于飛槳圖學習框架PGL(Paddle Graph Learning)實現(xiàn),依托飛槳核心框架以及自研的圖引擎。PGL支持十億節(jié)點百億邊的超巨圖訓練,原生支持異構圖Metapath采樣以及Message Passing雙模式,預置多種業(yè)界主流圖學習算法以及自研模型如ERNIESage、UniMP等,方便開發(fā)者熟悉和使用圖神經(jīng)網(wǎng)絡領域模型。
飛槳PGL已經(jīng)在搜索、廣告、信息流、金融風控、貼吧、用戶畫像、智能地圖等場景全面落地,可支持百億巨圖場景。圖學習作為通用人工智能算法之一,勢必成為這個時代新的基礎設施,賦能各行各業(yè),助燃智能經(jīng)濟騰飛。
PGL獲得喜人成績,背后離不開強有力的后盾——飛槳。飛槳是我國首個開源開放、功能完備的產(chǎn)業(yè)級深度學習平臺,向下對接芯片,能夠和芯片進行軟硬一體的優(yōu)化,向上支撐各種應用,助力技術創(chuàng)新和業(yè)務發(fā)展,可以說是“智能時代的操作系統(tǒng)”。近期,飛槳動態(tài)圖和API體系全面升級,讓開發(fā)者可以更便捷地開發(fā)、更高效地部署模型。
百度希望有志之士加入PGL,一起共建未來。PGL代碼完全開源開放,歡迎歡迎開發(fā)者們使用并貢獻您的奇思妙想。如果您覺得還不錯,歡迎“Star”;如果您有意見需要交流,歡迎“Issue”。
相關文章
- 百度與南京市鼓樓區(qū)共建江蘇首個飛槳人工智能產(chǎn)業(yè)賦能中心
- 第二屆廣州·琶洲算法大賽啟動,百度飛槳助力廣州打造中國算法新高地
- 百度CTO王海峰:“飛槳+文心大模型”融合創(chuàng)新,加速產(chǎn)業(yè)智能化
- GAIDC 2023全球AI開發(fā)者共聚,百度飛槳+文心大模型引領產(chǎn)業(yè)發(fā)展前沿
- WAVE SUMMIT+2022:百度飛槳發(fā)布開源框架2.4版本,夯實AI技術基座
- 摩爾線程加入飛槳硬件生態(tài)共創(chuàng)計劃,加速人工智能生態(tài)和創(chuàng)新應用發(fā)展
- 十個大模型、六大發(fā)布 WAVE SUMMIT 2022飛槳持續(xù)夯實AI底座
- WAVE SUMMIT 2022將于5月20日召開 飛槳將迎來大規(guī)模升級
- 中科曙光×百度飛槳,以算力助跑開發(fā)者同臺競技
- 河南師范大學等27所高校聯(lián)合百度飛槳推出“人工智能微專業(yè)”
- 百余位高校教師齊聚“云端課堂”,百度飛槳師資培訓班落地重慶大學
- “創(chuàng)客北京2021”百度飛槳人工智能產(chǎn)業(yè)創(chuàng)新應用專項賽決賽圓滿結束
- 2021全國人工智能師資培訓走進北理工,百度飛槳助力高校教師提升AI能力
- 百度飛槳人工智能產(chǎn)業(yè)賦能中心于上海浦東啟動運營
- 岳麓山下齊聚全國高校教師 飛槳深度學習師資培訓開班助AI教學
- 支持更大規(guī)模產(chǎn)業(yè)應用!百度飛槳獲KDD CUP 2021兩金一銀
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球對話
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案