螞蟻金服首屆ATEC開發(fā)者大賽人工智能大賽圓滿落幕,一文詳解最佳解題方案
2018-10-16 11:35:15AI云資訊790

摘要:一個(gè)歷時(shí)4個(gè)多月、吸引了5618位參賽選手、Michael I. Jordan和螞蟻金服CTO親自在證書上簽名的大賽。
杭州·云棲大會(huì)期間,首屆“ATEC 螞蟻開發(fā)者大賽人工智能大賽”在ATEC展館落下帷幕。
此次大賽于今年4月18日預(yù)報(bào)名啟動(dòng),8月26日復(fù)賽結(jié)束,持續(xù)時(shí)長131天?!安诲e(cuò)的業(yè)務(wù)場景”及“真實(shí)的數(shù)據(jù)集”吸引了來自來自全球20多個(gè)國家地區(qū)1000所院校及企業(yè),近1/3海外高校,共5618位選手參賽,是一場真正的國際化頂級比賽!
值得一提的是,參賽者中,擁有碩士及以上學(xué)歷的占比70%,行業(yè)界人士占比40%,這讓此次比賽更為激烈和貼近實(shí)戰(zhàn)。
此次大賽分為“風(fēng)險(xiǎn)大腦-支付風(fēng)險(xiǎn)識(shí)別”、“金融大腦-智能客服NLP相似度計(jì)算”兩個(gè)賽道,兩個(gè)賽道各有五支隊(duì)伍進(jìn)入決賽,進(jìn)行現(xiàn)場演示和答辯。排名前三的團(tuán)隊(duì)(共6支隊(duì)伍)共獲得120萬元現(xiàn)金獎(jiǎng)勵(lì),并獲得直通螞蟻金服集團(tuán)技術(shù)崗的終面資格。
頒獎(jiǎng)典禮上,螞蟻金服科學(xué)智囊團(tuán)主席、加州大學(xué)伯克利分校教授Michael I. Jordan,螞蟻金服副總裁、首席數(shù)據(jù)科學(xué)家漆遠(yuǎn)等學(xué)術(shù)及行業(yè)嘉賓為獲獎(jiǎng)團(tuán)隊(duì)頒發(fā)了獲獎(jiǎng)證書并簽名、合影留念。

Michael I. Jordan在獲獎(jiǎng)證書上簽名
清華大學(xué)朱軍教授、哈爾濱工業(yè)大學(xué)劉挺教授也出席了頒獎(jiǎng)典禮,他們是大賽評委。
朱軍教授是支付大腦的評委之一,他對比賽做出了這樣的點(diǎn)評:“AI用到金融里,現(xiàn)在不管是學(xué)術(shù)界或者是應(yīng)用,都是大家比較關(guān)心的。但是AI要用到行業(yè)里、想做出好的解決方案,需要對問題和場景有非常深入的理解。我覺得你們都非常了不起,能夠把機(jī)器學(xué)習(xí)算法用到實(shí)際里。雖然大家的思路都比較一致,但我覺得里面有很多精細(xì)的工作,做得還非常漂亮。特別是看到除了特征工程之外,大家對原理和方法有一些自己的思考,我覺得這個(gè)是特別值得鼓勵(lì)的。不管是從學(xué)術(shù)界還是從工業(yè)界來看,我希望能夠看到更多更有意思的例子和成果?!?
金融大腦的比賽結(jié)束后,劉挺教授現(xiàn)場致辭:“現(xiàn)在這個(gè)時(shí)代真的是工業(yè)界領(lǐng)先的時(shí)代,搞NLP的人,我們的優(yōu)勢是能夠和工業(yè)界結(jié)合,去拿到他們的真實(shí)數(shù)據(jù)。我們現(xiàn)在有機(jī)會(huì)和工業(yè)界合作,我希望大家更多去傾聽工業(yè)界的聲音,他們提煉出真實(shí)的問題、提供真實(shí)的數(shù)據(jù)。未來,希望大家能更深入地去分析,從原理上、從本源處去發(fā)明創(chuàng)造,去拐大彎兒?!?
“優(yōu)秀的數(shù)據(jù)集和場景”吸引了參賽經(jīng)驗(yàn)豐富的工程師應(yīng)縝哲,他是金融大腦賽道亞軍Skyhigh的隊(duì)長。Skyhigh是一支參賽經(jīng)驗(yàn)豐富的隊(duì)伍,共有三名成員,除了已經(jīng)工作了的應(yīng)縝哲,還有兩位研究生。自2017年認(rèn)識(shí)以來,三人組團(tuán)參加了五六次比賽,且都取得了不錯(cuò)的成績。
應(yīng)縝哲說,“這次比賽是國內(nèi)一個(gè)非常好的中文的課題,這種賽題非常少。數(shù)據(jù)很真實(shí),我們做了很多特征工程,這是這個(gè)比賽我認(rèn)為最有意思、也是我花時(shí)間最多的地方。如果下次比賽,賽題還這么有趣,我還會(huì)來的。”
螞蟻金服這次精心呈上的兩個(gè)經(jīng)典賽題究竟是什么?兩支冠軍隊(duì)伍又分別給出了怎樣的解題方案?下文將作出詳細(xì)解答。
“風(fēng)控老兵”來參賽,斬獲冠軍
移動(dòng)互聯(lián)網(wǎng)的新金融業(yè)務(wù)在蓬勃發(fā)展的同時(shí),黑產(chǎn)攻擊的能力也在不斷升級。信息泄露導(dǎo)致過億的敏感數(shù)據(jù)被盜用、利用,給用戶和銀行帶來了巨大的經(jīng)濟(jì)損失。保護(hù)消費(fèi)者和風(fēng)險(xiǎn)識(shí)別,越來越成為金融行業(yè)和學(xué)術(shù)界關(guān)注的焦點(diǎn)。
在這一背景下,螞蟻金服設(shè)置了“支付風(fēng)險(xiǎn)識(shí)別”的賽題:用2017年9月到10月的交易數(shù)據(jù)構(gòu)建算法,識(shí)別2018年2月的交易欺詐行為。
這一賽題,吸引了多位金融科技領(lǐng)域的資深從業(yè)人士來參賽。斬獲冠軍的,也是“風(fēng)控行業(yè)的老兵”,他們的解決方案兼具“創(chuàng)新性”和“實(shí)用性”。
“我們是一支來自上海的隊(duì)伍?!薄爸\殺電冰箱”的隊(duì)長熊文文說,團(tuán)隊(duì)共有4人,平均年齡27歲,都來自互聯(lián)網(wǎng)金融行業(yè),對風(fēng)險(xiǎn)控制和風(fēng)險(xiǎn)模型的開發(fā)有一定的了解。
“這個(gè)比賽提供了一個(gè)新場景——支付場景,大家就都想試一試?!毙芪奈恼f,他們之前在信貸場景下做風(fēng)險(xiǎn)控制,不同于支付場景中的風(fēng)險(xiǎn)控制,“信貸主要是刻畫一個(gè)人(賬戶)的資質(zhì)情況,支付不是刻畫賬戶的資質(zhì)、而是刻畫某單交易異常的情況?!?
如何解題?他們的特征工程以交易的賬戶(人)、交易賬戶所處的環(huán)境、與這個(gè)賬戶交易的商戶三個(gè)要素為核心,結(jié)合這三要素交叉時(shí)間維度,尋找靜/動(dòng)態(tài)異常交易的特征。
通過數(shù)據(jù)分析,他們發(fā)現(xiàn),“盜刷交易存在一定的集中性”。比如,1%的用戶覆蓋了80%的盜刷時(shí)間;某用戶在3天內(nèi)被盜刷幾百次;某交易方(也即商戶)交易1175次,其中80%是盜刷?!叭绻暗慕灰拙褪怯酗L(fēng)險(xiǎn)的,如果能檢測到之前風(fēng)險(xiǎn)的話,那我就可以在判定這單交易時(shí),把風(fēng)險(xiǎn)加進(jìn)去?!庇谑?,他們創(chuàng)新地提出了“先驗(yàn)風(fēng)險(xiǎn)信息”的概念,并設(shè)計(jì)了一個(gè)可以提煉先驗(yàn)風(fēng)險(xiǎn)信息的模型結(jié)構(gòu)來強(qiáng)化識(shí)別效果。
他們將數(shù)據(jù)按照時(shí)間的先后分為第一個(gè)月的數(shù)據(jù)和第二個(gè)月的數(shù)據(jù)。首先,通過第一個(gè)月的數(shù)據(jù)訓(xùn)練3個(gè)子模型(各有側(cè)重),這3個(gè)子模型的AUC停留在0.986左右,判定分?jǐn)?shù)在0.56-0.57之間;再利用3個(gè)子模型對第二個(gè)月的數(shù)據(jù)進(jìn)行預(yù)測,進(jìn)而得到第二個(gè)月每單交易的三個(gè)風(fēng)險(xiǎn)分?jǐn)?shù)(即先驗(yàn)風(fēng)險(xiǎn));最后通過風(fēng)險(xiǎn)分?jǐn)?shù)及其衍生變量,加上第二個(gè)月數(shù)據(jù)的常規(guī)變量,訓(xùn)練得到模型D。模型D給出的結(jié)果即為最后的結(jié)果。最終,模型D線下的測試AUC可以達(dá)到0.991,線下的判定分?jǐn)?shù)能達(dá)到0.7。

此外,他們還挖掘了一些白名單的規(guī)則:如,用戶每月3000筆以后的交易可以直接定義為正常;設(shè)備每月400筆之后,可以定義為正常?!巴ㄟ^白名單的規(guī)則,大概可以覆蓋10%的樣本。通過白名單規(guī)則,又可以將判定分?jǐn)?shù)提升幾個(gè)千分位?!?
分時(shí)間段建模、將效果不好的早期數(shù)據(jù)化作變量、進(jìn)行融合建模的做法以及策略+模型的解題思路,讓他們?nèi)〉昧说谝幻某煽?A榜得分0.627,B榜得分0.797),也斬獲了評委們的心。
逆襲:從第十一到第一,“有一種觸電的感覺”
“金融大腦”的賽題是問題相似度計(jì)算,即給定客服里用戶描述的兩句話,用算法來判斷是否表示了相同的語義。
“這個(gè)任務(wù)非常有實(shí)用價(jià)值。“一支優(yōu)秀的隊(duì)伍”是此賽道的冠軍,隊(duì)長段譽(yù)說:“想象你在做一個(gè)客服系統(tǒng),事先會(huì)有一個(gè)問題-答案的表單,客服的工作其實(shí)就是在面對用戶的提問時(shí),迅速找到與之最接近的問題,并整理出答案來給用戶。文本匹配系統(tǒng)一旦做的好了,可以直接解決第二個(gè)階段的問題,也是最需要人力的部分——找到最接近的問題,這能大大減輕客服的壓力,讓他們?nèi)ソ鉀Q真正困難的問題?!?
最先獲知這個(gè)比賽的是研一師弟梁嘉輝,他剛開始接觸NLP,“想通過這個(gè)比賽提高自己的能力”。因?yàn)橐粋€(gè)人參賽難度太大,便找到“正處于學(xué)術(shù)空檔期”的段譽(yù)(研三),共同組隊(duì)參加比賽。一個(gè)關(guān)鍵BUG的解決讓他們從第十一逆襲到第一,“有一種觸電感覺”。
與進(jìn)入決賽的其他4支隊(duì)伍相比,他們在特征工程上花費(fèi)了很少的時(shí)間,主要立足于對模型的充分改進(jìn)和探索,將單一模型的效果發(fā)揮到了極致。
他們的最佳成績是將三個(gè)模型ensemble后得來的,這三個(gè)模型結(jié)構(gòu)大概相同,只在細(xì)節(jié)(例如模型輸入)上有細(xì)微差別。他們的最優(yōu)模型如下:
首先,他們的模型輸入為五個(gè)層面的char-level feature,除exact match、idf外,自動(dòng)提取了幾個(gè)特征:用skip-gram在本地訓(xùn)練300維char embedding,為了防止過擬合,訓(xùn)練時(shí)是fix住的;為了彌補(bǔ)因fix而損失的模型能力,額外引入了50維可以訓(xùn)練的char embedding;利用其他文獻(xiàn)的方法分別提取了1維的句子間特征以及1維的句子本身特征。
通過輸入層后,引入Noise+Dropout,用來提升模型魯棒性,再用bi-GRU當(dāng)作encoder,并引入fuse gate來加速信息流通,然后用一層mlp+殘差進(jìn)一步整合信息。之后對兩個(gè)句子進(jìn)行對齊。對齊之后,通過正交分解,分別提取相關(guān)性和不相關(guān)性的信息。
用Multi-Head attention + Multi-Head pooling對相關(guān)信息、不相關(guān)信息進(jìn)行推斷后,再過一次一層mlp+殘差,然后分別得到相關(guān)信息表達(dá)、不相關(guān)信息表達(dá)。用fuse gate對兩方面的信息綜合考慮后,再經(jīng)過dropout以及兩層MLP,得出最終的結(jié)果。

段譽(yù)在論壇里分享了自己的經(jīng)驗(yàn),他寫道:“從一開始我們就選擇了ESIM模型,相比現(xiàn)在動(dòng)不動(dòng)就好多層網(wǎng)絡(luò)結(jié)構(gòu)的NLI模型,ESIM思路清晰、能說服我們、網(wǎng)絡(luò)結(jié)構(gòu)相對簡單、沒有用很多trick、擴(kuò)展性也強(qiáng)、效果很棒,所以就一眼相中了?!?
“對于NLP語義相似度識(shí)別這個(gè)任務(wù)來講,模型的潛力是蠻大的,我們沒有做任何的預(yù)處理,完整地保留了每個(gè)句子的所有信息(當(dāng)然了padding和截取是必須的)。我們沒有使用詞級別的向量,而是純用的字級別的向量,在做實(shí)驗(yàn)的過程中發(fā)現(xiàn)基于詞級別的結(jié)果普遍要差一點(diǎn),這和分詞質(zhì)量不無關(guān)系,而且本人認(rèn)為GRU、LSTM這樣的網(wǎng)絡(luò)因?yàn)橐肓薴use gate,已經(jīng)具備一定程度的分詞作用了。但是可以料想的是,如果經(jīng)過了良好的分詞處理,結(jié)合word和char級別的embedding,應(yīng)該是有一定幫助的?!?
梁嘉輝表示,通過參加這次大賽,他體驗(yàn)到了深度學(xué)習(xí)的魅力,也明確了未來的研究方向,“就是NLP(自然語言處理)”。
通過大賽解決實(shí)際問題,是螞蟻金服的初衷?!拔覀兎浅g迎更多人參與進(jìn)來,能夠去學(xué)習(xí)新技術(shù)、用技術(shù)解決實(shí)際問題?!蔽浵伡夹g(shù)合作與發(fā)展部的柴文意是此次大賽的負(fù)責(zé)人,她表示,此次比賽結(jié)束后,螞蟻金服將會(huì)把賽題和數(shù)據(jù)開放出來,也會(huì)盡可能地將參賽者的策略、方案應(yīng)用到螞蟻金服的真實(shí)場景中去。
漆遠(yuǎn)表示,“這(此次比賽)只是一個(gè)開始,我們會(huì)把這個(gè)作為一個(gè)長期的機(jī)制——打榜機(jī)制,開放出平臺(tái),讓更多朋友參加這個(gè)比賽?!?

螞蟻金服副總裁、首席數(shù)據(jù)科學(xué)家漆遠(yuǎn)
“ATEC大賽是一個(gè)非常好的鏈接生態(tài)的平臺(tái),將會(huì)持續(xù)舉辦?!辈裎囊獗硎荆酉聛?,他們會(huì)在不同領(lǐng)域推出不同賽題,把行業(yè)中一些
相關(guān)文章
- 螞蟻金服擬A+H上市 或?qū)⑹强苿?chuàng)板市值最高公司
- “螞蟻金服”更名 官方回應(yīng):螞蟻還是那個(gè)螞蟻
- 全國首個(gè)省級區(qū)塊鏈平臺(tái)落地云南,阿里云、螞蟻金服提供新基建技術(shù)支持
- 印度支付公司Paytm融資10億美元 螞蟻金服、軟銀參投
- 螞蟻金服發(fā)布SOFAStack雙模微服務(wù)平臺(tái) 助力企業(yè)云原生架構(gòu)落地
- 螞蟻金服完成對智慧暢行A輪投資:比移動(dòng)支付更大的故事
- 螞蟻金服同意收購英國支付公司W(wǎng)ORLDFIRST
- 螞蟻金服的這個(gè)比賽絕了,讓算法工程師變身街舞達(dá)人!
- 螞蟻金服首屆ATEC開發(fā)者大賽人工智能大賽圓滿落幕,一文詳解最佳解題方案
- 螞蟻金服舉辦百萬獎(jiǎng)金ATEC人工智能大賽,一等獎(jiǎng)卻不是阿里巴巴!
- ofo將完成數(shù)億美元E2-2輪融資 螞蟻金服等領(lǐng)投
- 從跨界入局到行業(yè)領(lǐng)先 掌通家園CEO獲選螞蟻金服首批生態(tài)合伙人
- 傳滴滴或?qū)⒙?lián)合螞蟻金服收購ofo,創(chuàng)始人回應(yīng):太假了
- 數(shù)智“新客服”獲年度推薦, 螞蟻金服AI開放賦能行業(yè)發(fā)展
- 全國首例:螞蟻金服實(shí)現(xiàn)“全流程AI快賠”
- 保險(xiǎn)巨頭太平洋人壽宣布16億元投資螞蟻金服
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計(jì)算”論壇圓滿召開——攜產(chǎn)界實(shí)踐洞見共探智能時(shí)代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗(yàn)
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機(jī)器人技能大賽在滬啟動(dòng),助推智能建造實(shí)戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機(jī)賦能中國打印
- 神眸榮獲快手“品牌標(biāo)桿獎(jiǎng)”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時(shí)延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動(dòng)AI應(yīng)用繁榮計(jì)劃,新一期AI共創(chuàng)營報(bào)名企業(yè)超300家
- 首都機(jī)場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個(gè)人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會(huì)亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時(shí)達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價(jià)值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會(huì)首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實(shí)現(xiàn)零改動(dòng)“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會(huì)
- 2025外灘大會(huì):王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時(shí)交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個(gè)孩子提供專屬學(xué)習(xí)方案