精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

支持更大規(guī)模產(chǎn)業(yè)應(yīng)用!百度飛槳獲KDD CUP 2021兩金一銀

2021-07-07 16:44:03AI云資訊1436

近日,由KDD CUP與OGB(Open Graph Benchmark)聯(lián)合舉辦的首屆圖神經(jīng)網(wǎng)絡(luò)大賽正式放榜,在DeepMind、微軟、螞蟻金服、UCLA等全球500多個(gè)頂尖企業(yè)、高校和實(shí)驗(yàn)室的激烈競(jìng)爭(zhēng)中,百度憑借飛槳圖學(xué)習(xí)框架PGL一路過(guò)關(guān)斬將,最終在全部三個(gè)賽道包攬了兩冠一亞。

本次大賽承辦方斯坦福大學(xué) Jure Leskovec 教授宣布冠軍隊(duì)伍

據(jù)了解,KDD CUP是ACM SIGKDD組織的年度賽事,素有「大數(shù)據(jù)領(lǐng)域世界杯」之譽(yù),是目前數(shù)據(jù)挖掘領(lǐng)域最高水平、最具影響力、規(guī)模最大的國(guó)際頂級(jí)賽事。而今年,KDD CUP與OGB聯(lián)合舉辦了第一屆OGB-LSC(OGB Large-Scale Challenge)比賽,提供來(lái)自真實(shí)世界的超大規(guī)模圖數(shù)據(jù),來(lái)完成圖學(xué)習(xí)領(lǐng)域的節(jié)點(diǎn)分類(lèi)、邊預(yù)測(cè)和圖回歸三大任務(wù)。

本次比賽采取「閉卷考試」,整個(gè)比賽周期只有2次提交模型結(jié)果機(jī)會(huì),極其考驗(yàn)參賽隊(duì)伍模型泛化能力,競(jìng)賽難度極大。得益于百度在圖神經(jīng)網(wǎng)絡(luò)的持續(xù)深耕,在本次大賽的三大賽道之中,百度飛槳圖學(xué)習(xí)框架PGL合計(jì)奪得大規(guī)模節(jié)點(diǎn)分類(lèi)賽道冠軍、大規(guī)模圖關(guān)系預(yù)測(cè)賽道冠軍、化學(xué)分子圖性質(zhì)預(yù)測(cè)賽道亞軍。

飛槳PGL奪冠頁(yè)面:https://ogb.stanford.edu/kddcup2021/results/

大規(guī)模節(jié)點(diǎn)分類(lèi)賽道冠軍:引入基于異構(gòu)關(guān)系的統(tǒng)一消息傳遞模型

OGB-LSC節(jié)點(diǎn)分類(lèi)數(shù)據(jù)集,來(lái)源于真實(shí)世界的超大規(guī)模學(xué)術(shù)引用網(wǎng)絡(luò)MAG(Microsoft Academic Graph)。OGB官方提取了超2.4億的實(shí)體(包括論文、作者等),構(gòu)建出包含16億邊關(guān)系的大規(guī)模異構(gòu)圖。參賽選手需從異構(gòu)圖中挖掘有效信息,預(yù)測(cè)出指定的arXiv論文的主題(總共包含153個(gè)主題,例如cs.LG 機(jī)器學(xué)習(xí)、q-bio.BM 生物分子等)。

目前,解決節(jié)點(diǎn)分類(lèi)的圖學(xué)習(xí)方法主要包含兩類(lèi):一類(lèi)是標(biāo)簽傳遞算法,而另一類(lèi)則是通過(guò)模型對(duì)多階鄰居特征進(jìn)行聚合,并預(yù)測(cè)中心節(jié)點(diǎn)標(biāo)簽的圖神經(jīng)網(wǎng)絡(luò)。然而目前這兩種方法均有其局限性,無(wú)法最大限度的利用圖節(jié)點(diǎn)中的標(biāo)簽信息。

為解決上述問(wèn)題,飛槳 PGL 提出了統(tǒng)一消息傳遞模型UniMP,巧妙地利用了『標(biāo)簽』掩蓋預(yù)測(cè)策略,使得模型可以在訓(xùn)練和預(yù)測(cè)中,同時(shí)進(jìn)行標(biāo)簽傳遞和特征聚合,成功地將上述兩種圖學(xué)習(xí)方法統(tǒng)一到消息傳遞模型中,并在半監(jiān)督節(jié)點(diǎn)分類(lèi)任務(wù)上取得明顯提升。目前,相關(guān)論文已被IJCAI2021收錄,并成為目前節(jié)點(diǎn)分類(lèi)任務(wù)中的主流的強(qiáng)基準(zhǔn)。

R-UniMP:標(biāo)簽與特征(圖中藍(lán)色能量)在統(tǒng)一的消息傳遞機(jī)制下進(jìn)行傳播

針對(duì)本次的大規(guī)模異構(gòu)圖,飛槳PGL進(jìn)一步引入了基于異構(gòu)關(guān)系的采樣方法與注意力融合機(jī)制,將UniMP升級(jí)成為R-UniMP,并且在飛槳并行計(jì)算框架基礎(chǔ)上實(shí)現(xiàn)了分布式大規(guī)模圖神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練和預(yù)測(cè)。實(shí)驗(yàn)結(jié)果相對(duì)官方基線的驗(yàn)證集準(zhǔn)確率提升將近10個(gè)百分點(diǎn)!并最終在與DeepMind、微軟、螞蟻金服、清華等一眾國(guó)內(nèi)外科技公司與學(xué)術(shù)機(jī)構(gòu)的較量中摘得桂冠。

大規(guī)模圖關(guān)系預(yù)測(cè)賽道冠軍:提出20層的NOTE-RPS知識(shí)圖譜嵌入模型

本次邊預(yù)測(cè)任務(wù)為大規(guī)模知識(shí)圖譜中的關(guān)系預(yù)測(cè)。在知識(shí)圖譜中,通過(guò)連接不同實(shí)體的三元組(例如姚明-出生于 ->上海)來(lái)表示關(guān)于世界的事實(shí)知識(shí)。然而,這些大型知識(shí)圖譜并不完善,缺少實(shí)體之間的許多關(guān)系信息。

使用機(jī)器學(xué)習(xí)方法自動(dòng)估算缺失的三元組可以顯著減少人工修補(bǔ)成本,從而提供了更全面的知識(shí)圖譜。本次比賽使用Wikidata知識(shí)圖譜,包含近9千萬(wàn)的實(shí)體和5億的三元組,為至今數(shù)據(jù)規(guī)模最大的知識(shí)圖譜任務(wù)。

目前業(yè)界知識(shí)表示模型層出不窮,例如TransE、RotatE等。飛槳PGL基于大規(guī)模知識(shí)表示庫(kù)PGL-KE,對(duì)已有算法升級(jí)提出了Normalized Orthogonal Transforms Embedding(NOTE)模型,能夠?qū)﹃P(guān)系進(jìn)行多維度建模,同時(shí)能在大規(guī)模場(chǎng)景下仍保持?jǐn)?shù)值穩(wěn)定性。

NOTE:歸一化正交轉(zhuǎn)換知識(shí)圖譜嵌入模型

其次,飛槳PGL提出的Relation-based Post Smoothing (RPS)圖神經(jīng)網(wǎng)絡(luò)算法,對(duì)訓(xùn)練完的NOTE模型進(jìn)行后處理,并使用了20層的RPS模型,堪稱(chēng)知識(shí)圖譜領(lǐng)域最深的圖神經(jīng)網(wǎng)絡(luò)模型?;贜OTE+RPS大規(guī)模知識(shí)表示方案的實(shí)驗(yàn)結(jié)果相對(duì)于官方提供的基準(zhǔn)提升了12個(gè)百分點(diǎn),并最終在與阿里巴巴、哈工大、中科大等團(tuán)隊(duì)的較量中一舉奪魁,助力知識(shí)圖譜向?qū)嵺`應(yīng)用邁出了巨大一步。

化學(xué)分子圖性質(zhì)預(yù)測(cè)賽道:利用分子3D構(gòu)象構(gòu)造自監(jiān)督預(yù)訓(xùn)練輔助任務(wù)

分子特性預(yù)測(cè)已被廣泛認(rèn)為是計(jì)算藥物和材料發(fā)現(xiàn)中最關(guān)鍵的任務(wù)之一?;贒FT 量子物理計(jì)算的方法需要耗費(fèi)大量時(shí)間才能有效預(yù)測(cè)多重分子性質(zhì)。為了利用圖神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表達(dá)能力來(lái)預(yù)測(cè)分子性質(zhì),飛槳PGL與螺旋槳PaddleHelix生物計(jì)算框架聯(lián)合提出了LiteGEM模型,利用分子的3D構(gòu)象構(gòu)造自監(jiān)督預(yù)訓(xùn)練輔助任務(wù),提升分子性質(zhì)預(yù)測(cè)效果,并最終獲得亞軍。

應(yīng)用落地:可支持更大規(guī)模產(chǎn)業(yè)應(yīng)用,飛槳圖學(xué)習(xí)框架 PGL 迎來(lái)重大升級(jí)

除了在KDD CUP上全面開(kāi)花,飛槳PGL也一直持續(xù)地致力于圖神經(jīng)網(wǎng)絡(luò)算法創(chuàng)新以及更大規(guī)模的工業(yè)應(yīng)用落地。

近日,飛槳PGL迎來(lái)重大升級(jí),推出了萬(wàn)億超大規(guī)模分布式圖引擎,本次KDD CUP 奪冠技術(shù)方案即是均基于該分布式圖引擎。分布式圖引擎研發(fā)的初衷也是希望圖學(xué)習(xí)算法可以在業(yè)界實(shí)現(xiàn)更大規(guī)模的產(chǎn)業(yè)應(yīng)用,目前,百度已借助飛槳PGL在搜索、信息流推薦、金融風(fēng)控、智能地圖、知識(shí)圖譜等多個(gè)場(chǎng)景實(shí)現(xiàn)數(shù)十項(xiàng)應(yīng)用落地。

深度學(xué)習(xí)開(kāi)發(fā)者峰會(huì)WaveSummit 2021萬(wàn)億圖引擎發(fā)布現(xiàn)場(chǎng)

此外,飛槳PGL還與多個(gè)外部機(jī)構(gòu)合作:網(wǎng)易云音樂(lè)在調(diào)研了大量開(kāi)源方案后,也選擇了對(duì)大規(guī)模圖訓(xùn)練更加友好的飛槳PGL作為云音樂(lè)推薦的圖神經(jīng)網(wǎng)絡(luò)基礎(chǔ)框架。同時(shí),飛槳PGL也助力科技創(chuàng)新2030「新一代人工智能」重大項(xiàng)目OpenKS知識(shí)計(jì)算引擎。

源于圖神經(jīng)網(wǎng)絡(luò)對(duì)于復(fù)雜數(shù)據(jù)建模的便利以及其強(qiáng)大的表達(dá)能力,飛槳PGL也探究圖神經(jīng)網(wǎng)絡(luò)與多個(gè)交叉學(xué)科的結(jié)合,包括構(gòu)建大數(shù)據(jù)疫情預(yù)測(cè)系統(tǒng),與飛槳螺旋槳PaddleHelix合作致力于化合物屬性預(yù)測(cè),并在多個(gè)化合物預(yù)測(cè)榜單上取得 SOTA。

飛槳圖學(xué)習(xí)框架PGL

圖學(xué)習(xí)作為通用的人工智能算法之一,勢(shì)必成為智能時(shí)代新的基礎(chǔ)能力,賦能各行各業(yè),助力智能經(jīng)濟(jì)騰飛?,F(xiàn)階段僅僅是圖學(xué)習(xí)熱潮的開(kāi)始,未來(lái)還將有更加深度的技術(shù)產(chǎn)出,和更大規(guī)模的產(chǎn)業(yè)機(jī)會(huì)出現(xiàn),扎根圖學(xué)習(xí)領(lǐng)域,持續(xù)為產(chǎn)業(yè)智慧化升級(jí)賦能,需要從現(xiàn)在就開(kāi)始。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛(ài)云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews