精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

友盟+ CDO李丹楓:日均千億數(shù)據(jù),如何實(shí)現(xiàn)高效計(jì)算、應(yīng)用?

2018-08-16 19:18:51AI云資訊1074

有人說,大數(shù)據(jù)火了多久,數(shù)據(jù)相關(guān)性弱、數(shù)據(jù)質(zhì)量不高、數(shù)據(jù)處理過程復(fù)雜等問題就存在了多久。人工智能時(shí)代的到來不僅加劇了已有問題,也引入了一些新的難題,一方面,當(dāng)前人工智能仍重度依賴數(shù)據(jù),如何讓大數(shù)據(jù)更好地服務(wù)于人工智能應(yīng)用;另一方面,如何利用好人工智能這個(gè)工具讓大數(shù)據(jù)的處理變得更加高效?在友盟+主辦UBDC全域大數(shù)據(jù)峰會(huì)前期,InfoQ對(duì)【友盟+】CDO李丹楓進(jìn)行了專訪,探討了在 AI 時(shí)代下,【友盟+】數(shù)據(jù)智能的生意經(jīng)。

截止 2018 年Q1,【友盟+】服務(wù) 150 萬款 App,710 萬個(gè)網(wǎng)站,每天觸達(dá)設(shè)備達(dá)到 14 億。存量數(shù)據(jù)高達(dá)55PB,什么概念呢?如果拿一張 A4 紙,正反兩面寫滿數(shù)字,把 A4 紙疊起來可以裝 15 萬輛卡車。

【友盟+】數(shù)據(jù)倉(cāng)庫(kù)有19000 張數(shù)據(jù)表。對(duì)于數(shù)據(jù)的挖掘、分析和運(yùn)算,每天的運(yùn)算量需要2 萬個(gè)計(jì)算單元,相當(dāng)于200個(gè)地球上的100億人24小時(shí)的不間斷的運(yùn)算。如此龐大的數(shù)據(jù)量,一方面我們獲得了天然的數(shù)據(jù)體量?jī)?yōu)勢(shì),另一方面,也給數(shù)據(jù)治理與整合、數(shù)據(jù)產(chǎn)品和數(shù)據(jù)團(tuán)隊(duì)帶來了前所未有的挑戰(zhàn)。均億數(shù)據(jù),如何實(shí)現(xiàn)高效計(jì)算?

Q:數(shù)據(jù)治理與整合,是如何實(shí)現(xiàn)的?

在數(shù)據(jù)整合方面,【友盟+】運(yùn)用全域數(shù)據(jù)打通能力,將移動(dòng)、PC、線下等跨終端、多場(chǎng)景數(shù)據(jù)打通,讓數(shù)據(jù)實(shí)現(xiàn)了全域融合。

數(shù)據(jù)處理方面: 我們每天有幾十億個(gè) ID 的數(shù)據(jù)回溯到數(shù)據(jù)訓(xùn)練平臺(tái)上,這背后是巨大的計(jì)算量和計(jì)算資源的占用,對(duì)于數(shù)據(jù)工程師來說最重要的是需要協(xié)助數(shù)據(jù)科學(xué)家搭建有效的數(shù)據(jù)生產(chǎn)環(huán)境,保證計(jì)算的穩(wěn)定性。

因此,數(shù)據(jù)全量更新或按需更新的選擇直接決定了存儲(chǔ)和計(jì)算資源的消耗量,也就是成本。 我們提出了“代碼健康度”的概念,讓數(shù)據(jù)團(tuán)隊(duì)一定要用最高效的方法來實(shí)現(xiàn)計(jì)算。尤其在數(shù)據(jù)體量巨大的場(chǎng)景下,比如說 100 億個(gè) ID,如果每個(gè)計(jì)算能提高 1%,能節(jié)省的資源是很大的。

在數(shù)據(jù)價(jià)值的挖掘工程中,我們也形成了一套高效的底層架構(gòu),例如數(shù)據(jù)清洗,打通后形成統(tǒng)一的寬表,建立 Universal User(device) Profile。絕大多數(shù)的數(shù)據(jù)挖掘和建模都基于這個(gè) Profile。實(shí)現(xiàn)了和產(chǎn)品層面的隔離之后,產(chǎn)品的更新就不會(huì)影響后面的建模。我們還提供了完善的回溯功能,可以讓用戶的 Profile 回到歷史上的任意一天(當(dāng)然,有一個(gè)最早的可回溯點(diǎn)),這對(duì)嚴(yán)格意義上的建模是非常有意義的,有些場(chǎng)景是必備的功能,如在我們的金融風(fēng)控場(chǎng)景中,是否可以回溯決定了模型效果的可信度。

Q:在高數(shù)據(jù)體量下,如何定義和實(shí)現(xiàn)高效計(jì)算?數(shù)據(jù)質(zhì)量如何把關(guān)?

對(duì)于大數(shù)據(jù)的高效計(jì)算包括存儲(chǔ)的高效,查找的高效和代碼的高效。剛剛提到我們的表有19000 張,55PB,顯然任何存儲(chǔ)的優(yōu)化都會(huì)帶來巨大的經(jīng)濟(jì)效益。例如,我們所做的標(biāo)簽 ID 化,就可以在很多表上節(jié)約 70% 的空間。

高效的查找,是指對(duì)每一個(gè)生產(chǎn)表打標(biāo)簽,建立數(shù)據(jù)地圖,這樣我們就可以快速定位到我們想要的表。

代碼的高效,主要是通過建立開發(fā)規(guī)范。這么大的數(shù)據(jù)量為避免數(shù)據(jù)重復(fù)開發(fā)和浪費(fèi),我們會(huì)對(duì)代碼和命名進(jìn)行有效規(guī)范。還可以通過方法論,比如說如何數(shù)據(jù)分層、統(tǒng)一語(yǔ)言,索引條件優(yōu)先等級(jí)劃分,都需要記錄在開發(fā)規(guī)范中。每一段代碼都會(huì)有健康度的評(píng)分,如果健康度低,運(yùn)行程序的優(yōu)先級(jí)就會(huì)降低。

Q:【友盟 +】數(shù)據(jù)體系架構(gòu)設(shè)計(jì)經(jīng)歷了哪幾個(gè)階段的演進(jìn)?

1)數(shù)據(jù)采集、傳送和處理的整合,對(duì)我們的平臺(tái)、工具、協(xié)議和底層的數(shù)據(jù)進(jìn)行統(tǒng)一。這是我們數(shù)據(jù)打通,從而進(jìn)行進(jìn)一步數(shù)據(jù)價(jià)值挖掘的基礎(chǔ);

2)實(shí)時(shí)和離線計(jì)算的技術(shù)升級(jí),在數(shù)據(jù)量激增的情況下保證服務(wù)的穩(wěn)定性;

3)在數(shù)據(jù)的內(nèi)容上進(jìn)行整合,我們將不同端打通,內(nèi)容連接,建立全域畫像;

4)是在業(yè)務(wù)驅(qū)動(dòng)下對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,發(fā)現(xiàn)和解決在數(shù)據(jù)采集和處理流程中可能存在的問題,好的數(shù)據(jù)質(zhì)量是好的服務(wù)的前提。

業(yè)務(wù)數(shù)據(jù)化,數(shù)據(jù)業(yè)務(wù)化

Q:請(qǐng)介紹一下【友盟+】當(dāng)前的業(yè)務(wù)體系?

【友盟+】的業(yè)務(wù)體系我們用 “三縱兩橫” 來闡述。

三縱中的第一部分是互聯(lián)網(wǎng)運(yùn)營(yíng)數(shù)據(jù)服務(wù):Dplus,通過一站式 App/Web 數(shù)據(jù)采集,幫助開發(fā)者實(shí)現(xiàn)數(shù)字化運(yùn)營(yíng)和精細(xì)化分析;第二部分是新零售數(shù)據(jù)服務(wù):Oplus,基于智能感知設(shè)備讓線下零售商實(shí)現(xiàn)線下數(shù)據(jù)可追蹤,同時(shí)將線上數(shù)據(jù)賦能線下,以消費(fèi)者需求為導(dǎo)向,提效降本、提升用戶體驗(yàn);第三部分是全媒體、全鏈路營(yíng)銷服務(wù)系統(tǒng) ADplus,幫助廣告主及代理商從觸達(dá)、認(rèn)知及搜索到品牌在全網(wǎng)的影響、關(guān)注度進(jìn)行宏觀監(jiān)測(cè)。

兩橫則是:金融和手機(jī)兩個(gè)行業(yè)大數(shù)據(jù)解決方案。金融行業(yè)是去年才正式開始做的,在一年的時(shí)間里取得了不錯(cuò)的成績(jī),我們從基于移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)的風(fēng)控產(chǎn)品開始,逐漸擴(kuò)展到獲客營(yíng)銷、二次營(yíng)銷、貸中管理,今年還計(jì)劃開發(fā)貸后管理的產(chǎn)品。同時(shí)在今年,我們還推出了手機(jī)行業(yè)的大數(shù)據(jù)解決方案,以 7 億真實(shí)活躍用戶的全域數(shù)據(jù)為能源,通過 15 萬顆運(yùn)算核心與數(shù)據(jù)引擎助力手機(jī)廠商實(shí)現(xiàn)從市場(chǎng)感知、業(yè)務(wù)與產(chǎn)品規(guī)劃,到產(chǎn)品上市、上市后運(yùn)營(yíng)等業(yè)務(wù)流各環(huán)節(jié)的數(shù)字化轉(zhuǎn)型。

對(duì)于【友盟+】而言,最大的優(yōu)勢(shì)是全域數(shù)據(jù),以及數(shù)據(jù)智能的認(rèn)知與能力。在全域數(shù)據(jù)方面,友盟 + 將 7 億真實(shí)活躍消費(fèi)者的 App、PC、線下等跨終端、全場(chǎng)景的實(shí)時(shí)數(shù)據(jù),通過全域數(shù)據(jù)打通技術(shù)進(jìn)行聯(lián)結(jié)與融合,幫助企業(yè) 360 度洞察“人”,為企業(yè)與消費(fèi)者通過數(shù)據(jù)更好地理解與連接。

在數(shù)據(jù)智能方面,【友盟+】提出全域數(shù)據(jù)*技術(shù)算法*商業(yè)場(chǎng)景的理念,即通過全域數(shù)據(jù)作為企業(yè)的新能源,以數(shù)據(jù)技術(shù)與算法模型作為企業(yè)的引擎,將企業(yè)與用戶接觸的場(chǎng)景作為賽道,幫助企業(yè)從數(shù)字化全面走向智能化, 最終用數(shù)據(jù)智能幫助企業(yè)實(shí)現(xiàn)增長(zhǎng)、增值和升級(jí)。

Q:在打通全域方面,【友盟+】遇到過哪些技術(shù)難題,是如何解決的?

我們的優(yōu)勢(shì)是“全域”。“全域”的最大挑戰(zhàn)之一就是數(shù)據(jù)的打通。我們開發(fā)了自有的數(shù)據(jù)打通算法,同時(shí)借鑒阿里的數(shù)據(jù)經(jīng)驗(yàn),基于全域數(shù)據(jù)能力,由于有了大量的高質(zhì)量數(shù)據(jù),模型可以達(dá)到約 80% 的 precision 和 80% 的 recall。

Q:您曾經(jīng)說過“未來傳統(tǒng)企業(yè)是重要服務(wù)客戶群”,能否談?wù)剛鹘y(tǒng)企業(yè)要應(yīng)用好數(shù)據(jù)涉及哪些關(guān)鍵因素?

關(guān)于傳統(tǒng)企業(yè)應(yīng)用好數(shù)據(jù)大家有許多共識(shí),比如說打破數(shù)據(jù)孤島,管理層的支持,提倡數(shù)據(jù)驅(qū)動(dòng)文化等,我在這就不一一贅述了。我想強(qiáng)調(diào)一點(diǎn),就是打造“數(shù)據(jù)閉環(huán)”。也就是說在業(yè)務(wù)場(chǎng)景的每一個(gè)環(huán)節(jié)都可以收集到數(shù)據(jù),從而可以真正實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)。舉一個(gè)簡(jiǎn)單的例子,電商之所以做得這么好,是因?yàn)樽鲭娚痰拿恳粋€(gè)環(huán)節(jié)都有數(shù)據(jù)支持,從而可以進(jìn)行優(yōu)化。再試想線下的場(chǎng)景,哪個(gè)貨架停留的客流多,哪個(gè)商品被拿起的次數(shù)多,這些數(shù)據(jù)對(duì)于商家來說,是一無所知的。沒有數(shù)據(jù),就無法談優(yōu)化。所以,對(duì)于傳統(tǒng)企業(yè)來講,一定要深入思考,怎樣才可以形成“數(shù)據(jù)閉環(huán)”?!皹I(yè)務(wù)數(shù)據(jù)化,數(shù)據(jù)業(yè)務(wù)化”,就是說的這個(gè)道理。這個(gè)不容易,但一旦你做到了,你就會(huì)在競(jìng)爭(zhēng)中處于優(yōu)勢(shì)。

Q:從【友盟 +】的角度講,一款數(shù)據(jù)產(chǎn)品要取得成功,關(guān)鍵因素是什么?

一個(gè)數(shù)據(jù)產(chǎn)品成功的關(guān)鍵因素其實(shí)很簡(jiǎn)單,是不是可以解決問題。這里有幾個(gè)層面:

第一,有沒有提高效率,或降低成本,或增加利潤(rùn)。現(xiàn)在有許多數(shù)據(jù)產(chǎn)品是為了使用數(shù)據(jù)而不是去真正地解決問題;

第二,你所使用的數(shù)據(jù)是不是能夠解決本質(zhì)的問題。許多第三方數(shù)據(jù)公司把自己的數(shù)據(jù)包裝得無所不能,這是非常不切合實(shí)際的, 第三方的數(shù)據(jù)往往起到的是輔助作用,在使用這類數(shù)據(jù)產(chǎn)品的時(shí)候,一定要問清數(shù)據(jù)的來源、數(shù)據(jù)的特征屬性,一定要能夠找到數(shù)據(jù)本身和要解決問題的相關(guān)性。就像你無法用棉花造出飛機(jī)一樣,每一種數(shù)據(jù)都有適用和不適用的場(chǎng)景。

所謂“知之為知之,不知為不知,是為知也”,對(duì)應(yīng)到數(shù)據(jù)的應(yīng)用“用之為用之,不用為不用,是為用也”。

數(shù)據(jù)科學(xué)家要能從自己的金字塔中走出去

Q:【友盟 +】數(shù)據(jù)團(tuán)隊(duì)規(guī)模和團(tuán)隊(duì)成員構(gòu)成?不同角色的崗位所分擔(dān)的工作或職責(zé)有哪些不同?

【友盟 +】數(shù)據(jù)團(tuán)隊(duì)有 40 多人,包括數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和數(shù)據(jù)研發(fā)。數(shù)據(jù)科學(xué)家主要的任務(wù)是建模和對(duì)數(shù)據(jù)價(jià)值的挖掘。數(shù)據(jù)分析師承擔(dān)很多 BI 的工作,同時(shí)也對(duì)數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)督,根據(jù)業(yè)務(wù)的需求,對(duì)數(shù)據(jù)進(jìn)行深層的分析。數(shù)據(jù)研發(fā)負(fù)責(zé)數(shù)據(jù)的整合、加工和提取,生成底層表格、支持業(yè)務(wù)邏輯和分析建模的需求。

Q:在您看來,對(duì)于數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師來說,有哪些職業(yè)技能是不可或缺的?

首先是基本的數(shù)據(jù)提取、處理和分析的技能。從工具的角度來說,例如 SQL、Python 等;從基本的數(shù)學(xué)和統(tǒng)計(jì)方面包括,均值、方差、中值、correlation 等;從建模的角度來說如LR、GBDT、CNN等,還有對(duì)不同的模型怎樣評(píng)估,包括 precision and recall、false positive、ROC、KS 等指標(biāo)。

在具備了這些基本的必備知識(shí)之后,我認(rèn)為作為一個(gè)在工業(yè)界的數(shù)據(jù)科學(xué)家最重要的能力是去發(fā)現(xiàn)問題,建立數(shù)據(jù)和算法的直接聯(lián)系,到進(jìn)一步地去解決問題。大家都認(rèn)同數(shù)據(jù)是巨大的財(cái)富,可以給我們解決很多的問題,但是我們仔細(xì)看一下,真正的大數(shù)據(jù)和算法能夠落地的場(chǎng)景還是非常有限的,特別是對(duì)于傳統(tǒng)企業(yè)來說。最近 IBM Waston 在美國(guó)醫(yī)院的受阻就是一個(gè)例子,雖然幫助醫(yī)院解決了一些問題,但代價(jià)是高額的成本。我在前面提到一個(gè)數(shù)據(jù)產(chǎn)品成功的關(guān)鍵是“提高效率,或降低成本,或增加利潤(rùn)”。數(shù)據(jù)科學(xué)家也要有這種思路,要能夠從自己的金字塔中走出去,去了解和理解業(yè)務(wù), 這是我認(rèn)為在工業(yè)界的數(shù)據(jù)科學(xué)家的一個(gè)非常重要的能力。

數(shù)據(jù) · 智能

Q:AI 火了之后,有人調(diào)侃原來做大數(shù)據(jù)的現(xiàn)在都說做 AI 了。您認(rèn)為近幾年 AI 的發(fā)展反過來給大數(shù)據(jù)領(lǐng)域帶來了什么樣的影響?

這個(gè)影響是巨大的,在 AI 浪潮興起之前,大部分人理解的大數(shù)據(jù)應(yīng)用(實(shí)際上也確實(shí)是這樣的)都是 BI(business intelligence)。BI,簡(jiǎn)單講就是向過去看, 統(tǒng)計(jì)過去所做的事情和造成的影響,統(tǒng)計(jì)報(bào)表出來之后,我們?cè)俑鶕?jù)歷史進(jìn)行對(duì)未來的決策。注意,這里的關(guān)鍵點(diǎn)是“我們”,這里人是決策者。而 AI 是向未來看, 機(jī)器取代了人做決策,機(jī)器人客服、人臉識(shí)別、到自動(dòng)駕駛等等,都是這個(gè)場(chǎng)景。

AI 的三大要素是“數(shù)據(jù)”、“算法”和“算力”,而在這三大要素中,很多人(包括我)都認(rèn)為“數(shù)據(jù)”是最重要的因素。這是因?yàn)楝F(xiàn)在的 AI 模型的結(jié)構(gòu)都包含大量的參數(shù),而要讓算法學(xué)出這些參數(shù),就需要大量的數(shù)據(jù)?,F(xiàn)在 AI 的普及,使得大家進(jìn)一步認(rèn)識(shí)到數(shù)據(jù)的重要性, 這是最顯著的變化。對(duì)于技術(shù)來說,怎樣采集(如 IoT),存儲(chǔ)和處理(如 Hadoop、Spark、Flink),建模(如深度學(xué)習(xí)),甚至于 AI 芯片等大數(shù)據(jù)相關(guān)的技術(shù)都有了很大的發(fā)展。在應(yīng)用方面,許多行業(yè)也開始進(jìn)入(醫(yī)療,教育)或者更深度地介入(金融)大數(shù)據(jù)和 AI。

Q:【友盟 +】在公司內(nèi)部以及對(duì)外提供給客戶的產(chǎn)品中,分別是如何應(yīng)用人工智能技術(shù)的?

我們的數(shù)據(jù)是關(guān)于互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的運(yùn)營(yíng)數(shù)據(jù),所以主要工作是圍繞怎么去建立設(shè)備行為的模型,如果有業(yè)務(wù)場(chǎng)景需要設(shè)備行為的信息,我們的模型就有可能得到應(yīng)用?!居衙?】的反作弊應(yīng)用就是非常好的例子,由于有了設(shè)備行為偏好,我們就可以去衡量一個(gè)設(shè)備的質(zhì)量,通過歸因算法、智能反作弊等技術(shù),幫助客戶獲取真實(shí)流量。

Q:您認(rèn)為中美在大數(shù)據(jù)技術(shù)和應(yīng)用兩個(gè)層面存在哪些不同之處?

在技術(shù)層面?zhèn)€人感覺美國(guó)還是有一些優(yōu)勢(shì)的,他們有很多的公司會(huì)去做非常長(zhǎng)期的底層的工作,學(xué)校和公司里的研究院的資源比較豐富,也有不少可以安心做研究的人。

在應(yīng)用層面,中國(guó)有非常大的優(yōu)勢(shì),我們有非常大的用戶群體,大量的用戶帶來了大量的應(yīng)用場(chǎng)景。

Q:您認(rèn)為大數(shù)據(jù)領(lǐng)域當(dāng)前最有待突破的地方在哪里?下一階段大數(shù)據(jù)的主要發(fā)展方向是什么?

我認(rèn)為大數(shù)據(jù)領(lǐng)域最有待突破的是:模型的可解釋性。現(xiàn)在的人工智能都是所謂的“弱”人工智能,是利用大量的數(shù)據(jù),訓(xùn)練一個(gè)參數(shù)眾多的黑箱模型。這個(gè)模型是在建立輸入和輸出的“相關(guān)性”,而不是“因果性”。比如,你打著雨傘和你的鞋濕了,這兩個(gè)事件是“相關(guān)”的,也就是說經(jīng)常會(huì)在一起發(fā)生。但是打傘并不是鞋濕的原因,下雨才是鞋濕的原因,所以下雨和鞋濕才是“因果”關(guān)系。為什么因果關(guān)系這么重要呢?是因?yàn)檫@是我們理解世界,從而進(jìn)一步改變世界的方式。

我們知道了植物是怎樣生長(zhǎng)的,才有了萬畝良田;知道了電和磁的相互轉(zhuǎn)化,才有了萬家燈火。同樣,真正的智能,是能夠幫助我們找到因果關(guān)系的模型,在很多的應(yīng)用場(chǎng)景,可解釋性也是非常重要的,例如,金融場(chǎng)景中,我們要知道為什么可以給這個(gè)人貸款;在醫(yī)療場(chǎng)景中,我們要知道為什么會(huì)做這樣的診斷等等。

當(dāng)然,模型的可解釋性可能需要相當(dāng)長(zhǎng)的時(shí)間。當(dāng)下,我認(rèn)為大數(shù)據(jù)主要的發(fā)展方向是在更多的領(lǐng)域找到真正落地的場(chǎng)景?,F(xiàn)在在互聯(lián)網(wǎng),金融應(yīng)用得不錯(cuò),在醫(yī)療、教育也有好的開端。我們希望可以在更多的領(lǐng)域可以找到大數(shù)據(jù)的解決方案,標(biāo)準(zhǔn)是“提高效率,或降低成本,或增加利潤(rùn)”。

想了解DI·進(jìn)化嗎?那么別猶豫10月16日歡迎到友盟+主辦的UBDC全域大數(shù)據(jù)峰會(huì)共同探討最新數(shù)據(jù)智能的前沿思想!

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews