第四范式、Intel研究成果入選國際頂會VLDB 全面優(yōu)化超高維在線預估系統(tǒng)
2021-01-09 09:05:27AI云資訊632
近日,第四范式與英特爾聯(lián)合實驗室以及新加坡國立大學的最新聯(lián)合研究成果——基于英特爾® 傲騰?持久內(nèi)存的特征工程內(nèi)存數(shù)據(jù)庫FEDB(Feature Engineering Database),被國際頂級數(shù)據(jù)庫學術會議VLDB(Very Large Data Base)作為常規(guī)研究論文錄取。VLDB與SIGMOD并稱為數(shù)據(jù)庫業(yè)界的兩大最頂級學術會議,收錄研究機構以及科技企業(yè)在數(shù)據(jù)庫領域最前沿、最頂級的研究成果。此次,第四范式與Intel合作錄取的論文以解決在線預估系統(tǒng)的業(yè)務需求和痛點為目的,針對如何設計底層數(shù)據(jù)庫組件來高效支撐萬億維稀疏特征在線預估系統(tǒng),以及如何基于英特爾® 傲騰?持久內(nèi)存進一步解決業(yè)務和系統(tǒng)設計的痛點等兩方面進行創(chuàng)新性設計和全面優(yōu)化。
如今,越來越多的企業(yè)意識到了AI在企業(yè)經(jīng)營、決策中的重要作用,AI迎來了落地應用爆發(fā)期。作為AI落地的關鍵組件,超高維在線預估系統(tǒng)基于實時提取的超高維特征和預先訓練的模型對業(yè)務數(shù)據(jù)進行實時評估,因而被廣泛應用在欺詐交易識別、個性化推薦等在線實時推理業(yè)務場景中。
為了支撐高性能的實時特征存取需求,業(yè)界誕生了諸多實時內(nèi)存數(shù)據(jù)庫。然而,伴隨著業(yè)務的持續(xù)擴張和數(shù)據(jù)量的指數(shù)級增長,實時內(nèi)存數(shù)據(jù)庫所存在的潛在弊端與風險使其難以高效、低成本的滿足不斷增長的業(yè)務硬實時需求:
-高性能特征存取對計算資源消耗巨大:為了保障線上服務的性能,特征工程內(nèi)存數(shù)據(jù)庫對內(nèi)存的容量要求極高,企業(yè)通常需要配備20-30臺機器以滿足高性能計算需求所需的內(nèi)存容量,總體擁有成本(TCO)居高不下。
-服務中斷恢復所需周期長,嚴重影響企業(yè)線上服務質(zhì)量:企業(yè)線上服務對服務質(zhì)量的要求極高,然而通常情況下服務中斷(軟硬件錯誤宕機、例行維護等)往往需要幾個小時的恢復時間,業(yè)務長時間掉線嚴重影響線上服務質(zhì)量。
-長尾延遲:使用基于內(nèi)存的特征工程數(shù)據(jù)庫保障了線上服務的高性能,但是數(shù)據(jù)備份依然會落盤到性能較差的外存儲設備上,導致某些場景出現(xiàn)長尾延遲,嚴重影響服務質(zhì)量。
為解決以上問題,第四范式自主研發(fā)了實時特征工程內(nèi)存數(shù)據(jù)庫FEDB。作為面向AI硬實時場景的分布式特征數(shù)據(jù)庫,F(xiàn)EDB所具備的高效計算、讀寫分離、高并發(fā)、高性能查詢等特性,使得特征工程的效率和性能達到最大化。
在充分發(fā)揮FEDB價值的基礎上,第四范式引入英特爾® 傲騰?持久內(nèi)存技術,以及創(chuàng)新性的持久化數(shù)據(jù)結構,全面支撐AI硬實時、低成本、高計算性能等需求。雙方基于英特爾® 傲騰?持久內(nèi)存,使用App Direct Mode,開發(fā)優(yōu)化持久化數(shù)據(jù)結構,完全摒棄了FEDB原有的基于外存儲設備的數(shù)據(jù)持久化架構,不僅充分利用了持久內(nèi)存大容量、持久性的特性,而且將持久化操作帶來的性能損耗降至最小。
該工作主要的創(chuàng)新性優(yōu)化技術包括“持久化智能指針”以及利用原子操作“持久化比較并交換”(Atomic Persistent Compare-And-Swap”)的解決方案。一方面,持久化智能指針巧妙地利用了64位操作系統(tǒng)中64位寬指針不被使用的低4位來標記目標地址的數(shù)據(jù)是否已持久化;另一方面,針對“比較并交換操作”(CAS),傳統(tǒng)指令缺少持久化語義,因而無法在持久內(nèi)存中直接作為帶有持久化特性的原子操作來使用的難點,雙方引入了新的“讀前持久化”(flush-before-read)概念,利用持久化智能指針,保證“持久化比較并交換” (Persistent CAS)正確性的同時,最大化減少持久化帶來的性能損耗。
此項工作的研究成果表明,基于英特爾® 傲騰?持久內(nèi)存的FEDB可有效滿足企業(yè)超高維稀疏特征在線預估場景的需求,在保證線上推理服務超高性能的同時,大幅降低了企業(yè)AI整體投入成本,提升了線上服務的質(zhì)量,進一步掃清了企業(yè)AI規(guī)?;瘧玫恼系K。
英特爾® 傲騰?持久內(nèi)存的加持滿足特征工程數(shù)據(jù)庫對大內(nèi)存的需求。下圖顯示了在論文實驗中使用的機器配置,在10TB數(shù)據(jù)的業(yè)務場景中,基于英特爾® 傲騰?持久內(nèi)存的FEDB的硬件成本僅為基于純內(nèi)存版本的41.6%。
硬件成本比較(10TB業(yè)務數(shù)據(jù))
在服務中斷情況下實現(xiàn)數(shù)據(jù)快速恢復,服務恢復時間減少99.7%,全面降低對線上服務質(zhì)量的影響。如在論文中描述的結果(見下圖,PA-FEDB為基于持久內(nèi)存優(yōu)化的FEDB,D-FEDB為內(nèi)存版本的FEDB),在實際業(yè)務場景中,其數(shù)據(jù)恢復時間從原來的六個小時縮短至一分鐘左右。
數(shù)據(jù)恢復時間比較
持久內(nèi)存(PA-FEDB)vs. 純內(nèi)存(D-FEDB)
基于英特爾® 傲騰?持久內(nèi)存進行持久化數(shù)據(jù)結構設計的FEDB舍棄了原有純內(nèi)存方案以及基于外存儲設備的備份機制,實現(xiàn)了長尾延遲(TP-9999)接近20%的改善(見下圖,PA-FEDB為基于持久內(nèi)存優(yōu)化的FEDB,D-FEDB為內(nèi)存版本的FEDB )。
長尾延遲TP-9999比較
持久內(nèi)存(PA-FEDB)vs. 純內(nèi)存(D-FEDB)
未來,第四范式與英特爾聯(lián)合實驗室還將在軟硬一體技術、面向AI的高性能計算等方面展開深入合作,結合英特爾領先的軟硬件產(chǎn)品以及第四范式在AI領域的深厚積累、研發(fā)優(yōu)勢,推動AI技術的創(chuàng)新和落地,加速企業(yè)規(guī)模化AI應用進程,共同引領AI產(chǎn)業(yè)化發(fā)展。
相關文章
- 第四范式上市不到4個月總裁裴沵思離職 首席架構師胡時偉接任
- 支持大模型研發(fā),第四范式與西安智算中心達成戰(zhàn)略合作
- 聯(lián)網(wǎng)企業(yè)內(nèi)應用 第四范式類GPT產(chǎn)品“式說”新增多模態(tài)及企業(yè)級Copilot能力
- 第四范式 用技術領跑人工智能產(chǎn)業(yè)
- 第四范式,為您的智能化轉型業(yè)務保駕護航
- 第四范式攜手工銀科技 首批入駐雄安人工智能算法開放平臺
- 第四范式獲信通院尖峰開源項目及開源人物雙料大獎 受國家級認可
- 第四范式以鏈主身份承辦“創(chuàng)客北京2021”專項賽道
- 消息稱第四范式預計本月提交在港 IPO 申請 AI 創(chuàng)企加速上市闖關
- 愛數(shù)與第四范式達成合作,推出OCR智能內(nèi)容識別解決方案
- 第四范式AutoML刷新知識圖譜最強榜單OGB世界紀錄
- 第四范式攜手華中科技大學電信學院 共建人才培養(yǎng)實訓基地
- 第四范式兩款人工智能產(chǎn)品斬獲iF國際設計大獎
- 第四范式完成D輪7億美元融資
- 第四范式完成D輪7億美元融資,博裕、春華、厚樸領投
- 第四范式、Intel研究成果入選國際頂會VLDB 全面優(yōu)化超高維在線預估系統(tǒng)
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案