打造數(shù)據(jù)智能分析處理平臺RapidsDB 柏睿數(shù)據(jù)推動大數(shù)據(jù)邁入智能高算力時代
2022-12-11 12:24:40AI云資訊769
近年來,新一代硬件產(chǎn)品不斷蓬勃發(fā)展,如多核CPU、GPU、FPGA,以及XPU,如TPU(Tensor Processing Unit,張量處理單元)等。以TPU為例,它可以在硬件層面上處理人工智能和機器學(xué)習(xí)經(jīng)常涉及的張量數(shù)據(jù)結(jié)構(gòu)和張量相關(guān)的計算,這大大提高了數(shù)據(jù)處理和計算的效率。
此外,新一代硬件的革新也在推動數(shù)據(jù)庫系統(tǒng)和架構(gòu)發(fā)生變化,數(shù)據(jù)庫系統(tǒng)作為硬件和企業(yè)需求之間的紐帶,需要通過巧妙精細(xì)的架構(gòu)把硬件的能力和特性充分發(fā)揮出來,更好地滿足企業(yè)存儲和分析數(shù)據(jù)的需求。
因此,在新一代硬件的基礎(chǔ)上,柏睿數(shù)據(jù)從數(shù)據(jù)庫系統(tǒng)層面優(yōu)化,囊括新一代計算平臺和引擎,如內(nèi)存計算、分布式計算、人工智能和機器學(xué)習(xí)計算、流計算等,構(gòu)建業(yè)界領(lǐng)先的數(shù)據(jù)智能分析處理平臺——RapidsDB,以完全自研的分布式全內(nèi)存數(shù)據(jù)庫、實時流數(shù)據(jù)庫、數(shù)據(jù)庫人工智能、跨源異構(gòu)查詢連接器、數(shù)據(jù)庫安全&加速卡等為核心,針對海量、高吞吐、高并發(fā)、多源異構(gòu)數(shù)據(jù)進行實時分析處理,充分利用和發(fā)揮新一代硬件的性能,落地數(shù)據(jù)治理、數(shù)據(jù)模型分析、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)追溯等場景應(yīng)用,攜手政府部門和千行百業(yè)的企業(yè)開展數(shù)智化轉(zhuǎn)型。
柏睿數(shù)據(jù)是如何將內(nèi)存計算和分布式計算珠聯(lián)璧合,構(gòu)建出一個更快、更簡單、性價比更高的數(shù)據(jù)智能分析處理平臺?柏睿數(shù)據(jù)聯(lián)合創(chuàng)始人、全球副總裁、首席技術(shù)官馬珺表示,柏睿數(shù)據(jù)專家團隊擁有國際領(lǐng)先的智能數(shù)據(jù)算力技術(shù),完成了從解析層、優(yōu)化層、執(zhí)行層到存儲層等全面自主可控的數(shù)據(jù)庫產(chǎn)品體系。柏睿數(shù)據(jù)完全自主研發(fā)的數(shù)據(jù)智能分析處理平臺RapidsDB,從內(nèi)存計算出發(fā),革新存儲介質(zhì);通過分布式計算,對架構(gòu)進行橫向擴展,為數(shù)據(jù)平臺帶來數(shù)據(jù)存儲與數(shù)據(jù)處理方面的革新。
內(nèi)存VS磁盤,從儲存到計算、實時分析的巔峰對決
柏睿數(shù)據(jù)RapidsDB是基于分布式架構(gòu)的內(nèi)存數(shù)據(jù)庫。相較于傳統(tǒng)數(shù)據(jù)庫用磁盤存儲數(shù)據(jù),內(nèi)存數(shù)據(jù)庫直接在內(nèi)存上進行數(shù)據(jù)存儲和計算。
一、內(nèi)存數(shù)據(jù)庫避開了數(shù)據(jù)訪問時磁盤的I/O瓶頸,存取速度更快。將內(nèi)存與磁盤的訪問速度對比可知,內(nèi)存訪問速度是納秒級,而磁盤訪問速度是毫秒級,數(shù)據(jù)處理速度差異高達百萬倍。
二、內(nèi)存數(shù)據(jù)庫能夠用壓縮和優(yōu)化的格式來存儲數(shù)據(jù),從而更好地發(fā)揮CPU、GPU等現(xiàn)代硬件,而傳統(tǒng)的磁盤數(shù)據(jù)存儲則無法實現(xiàn)。
三、內(nèi)存數(shù)據(jù)庫中從內(nèi)存訪問數(shù)據(jù)所使用的內(nèi)存更少。這是因為從磁盤上讀取數(shù)據(jù)時會涉及諸多復(fù)雜操作和過程,而從內(nèi)存訪問數(shù)據(jù)的過程指令集較少,所使用的內(nèi)存也較少。
四、除了性能優(yōu)勢外,內(nèi)存數(shù)據(jù)庫還在一些有趣的領(lǐng)域具有磁盤存儲和索引難以實現(xiàn)的優(yōu)勢。例如,列式存儲和行式存儲,內(nèi)存數(shù)據(jù)庫能夠很容易地在兩者之間靈活切換,且可以很容易地實現(xiàn)分層數(shù)據(jù)模型,甚至矩陣張量數(shù)據(jù)模型。而對于基于磁盤的存儲來說,實現(xiàn)這樣復(fù)雜的模型是難以想象的。
正因如此,柏睿數(shù)據(jù)RapidsDB選擇基于內(nèi)存存儲架構(gòu)進行設(shè)計和優(yōu)化,具有無磁盤IO、高可擴展、高吞吐、高并發(fā)、低時延、節(jié)省內(nèi)存等特性,比傳統(tǒng)數(shù)據(jù)庫性能提高近百倍,分布式架構(gòu)支持按需動態(tài)在線擴展,支持日增20TB數(shù)據(jù)量實時采集與分析,滿足100TB全內(nèi)存數(shù)據(jù)量分析500/秒并發(fā),TB級數(shù)據(jù)毫秒級響,且數(shù)據(jù)與內(nèi)存空間的占用比例少于1:2,相較于傳統(tǒng)數(shù)據(jù)庫節(jié)省內(nèi)存采購成本60%以上,充分滿足企業(yè)對海量高并發(fā)大數(shù)據(jù)進行快速、精準(zhǔn)智能分析和決策支持的需求。
相較于基于磁盤架構(gòu)的傳統(tǒng)數(shù)據(jù)庫,RapidsDB在內(nèi)存優(yōu)化方面有四大顯著特性:一、RapidsDB是一個分布式橫向擴展系統(tǒng),可以在普通硬件上擴展到數(shù)千臺機器;二、沒有緩沖池,不易造成資源爭用;三、無鎖數(shù)據(jù)結(jié)構(gòu),使用內(nèi)存優(yōu)化的無鎖跳過列表作為其索引,允許高吞吐量的高度并發(fā)讀寫,且讀取永遠(yuǎn)不會被阻止;四、代碼生成,無鎖的數(shù)據(jù)結(jié)構(gòu)很快導(dǎo)致動態(tài)SQL解釋成為限制查詢執(zhí)行的瓶頸, RapidsDB可將SQL向下編譯為本機代碼,以獲得最高性能。
此外,RapidsDB雖然使用內(nèi)存作為數(shù)據(jù)的主要存儲模塊,但會通過事務(wù)日志和定期快照不斷地將數(shù)據(jù)備份到磁盤,這些特性可以從同步持久性(每個事務(wù)在完成之前都記錄在磁盤上)一直調(diào)整到純內(nèi)存持久性(最大持續(xù)吞吐量)。同時,RapidsDB提供選項來控制性能和持久性之間的權(quán)衡,在其最持久的狀態(tài)下,RapidsDB不會丟失任何一個已確認(rèn)的事務(wù)。
重塑JOIN,實現(xiàn)更強大的分布式數(shù)據(jù)庫
現(xiàn)代社會日新月異,萬事萬物數(shù)據(jù)化生成海量大數(shù)據(jù),并在多維時空高速傳播。為高效存儲、處理、利用好海量大數(shù)據(jù),分布式計算逐漸成為眾多大數(shù)據(jù)平臺采用的計算方式。原因在于,分布式數(shù)據(jù)庫解決了傳統(tǒng)集中式單機數(shù)據(jù)庫面臨的存儲、處理等性能瓶頸。首先,分布式數(shù)據(jù)庫能夠簡便的實現(xiàn)橫向擴展集群,即通過增加更多的節(jié)點綜合提升數(shù)據(jù)處理能力;其次,它能實現(xiàn)成本優(yōu)化,部署的節(jié)點可以根據(jù)應(yīng)用場景需求進行靈活設(shè)計;再次,具備高容錯率,保證不會因為單點故障而影響整體的可用性。
但是,由于現(xiàn)實世界中數(shù)據(jù)處理繁雜多樣,分布式數(shù)據(jù)庫不能只是簡單劃分并分配計算任務(wù)給每個節(jié)點;尤其是作為數(shù)據(jù)庫中最基本、最廣泛使用的算子之一的JOIN(表連接),在分布式計算中實現(xiàn)系統(tǒng)節(jié)點間的數(shù)據(jù)交互,而隨著分布式集群規(guī)模增大,網(wǎng)絡(luò)數(shù)據(jù)傳輸量大增,節(jié)點之間的數(shù)據(jù)交互效率降低,從而導(dǎo)致分布式數(shù)據(jù)庫擴容帶來的性價比愈發(fā)降低,此時分布式數(shù)據(jù)庫往往需要重新設(shè)計JOIN,以實現(xiàn)更優(yōu)性能,降低部署成本。
面對這一問題,柏睿數(shù)據(jù)RapidsDB基于BLOOM JOIN(布隆連接)和BLOOM FILTER(布隆過濾器)提出了解決方案。BLOOM JOIN通過在節(jié)點集群中連接BLOOM FILTER,能夠完成數(shù)據(jù)篩選、處理、連接工作;借助BLOOM JOIN,分布式數(shù)據(jù)庫能夠排除不使用、不必要的大量數(shù)據(jù),保留具有查詢意義的數(shù)據(jù),以達到高效數(shù)據(jù)交互的目的。
由BLOOM JOIN連接的BLOOM FILTER也被稱為概率數(shù)據(jù)結(jié)構(gòu),它能夠?qū)⒋笮蛿?shù)據(jù)壓縮進一個非常復(fù)雜的數(shù)據(jù)結(jié)構(gòu),例如將原本幾百個二進制位數(shù)據(jù),變成只有一個或幾個二進制位數(shù)據(jù)。因此,BLOOM FILTER比其他數(shù)據(jù)結(jié)構(gòu)更節(jié)省空間,盡管它存在一定的誤判,但這并不影響其性能優(yōu)化目標(biāo)的實現(xiàn)。
事實上,RapidsDB很早就已經(jīng)開始部署B(yǎng)LOOM JOIN,然而當(dāng)前許多數(shù)據(jù)庫系統(tǒng)都還沒有部署;即使已經(jīng)部署了BLOOM JOIN的數(shù)據(jù)庫,其使用方式也比較復(fù)雜,會對工作效率造成一定影響。不僅如此,柏睿數(shù)據(jù)的數(shù)據(jù)庫產(chǎn)品還會智能地使用BLOOM JOIN,即數(shù)據(jù)庫系統(tǒng)會動態(tài)探測和優(yōu)化連接,根據(jù)不同的數(shù)據(jù)需求,自主選擇BLOCK JOIN或 HASH JOIN,這也是RapidsDB的智能之處。
知之愈明,則行之愈篤。柏睿數(shù)據(jù)專家團隊厚植數(shù)據(jù)庫“卡脖子”技術(shù),以“做中國的國際智能數(shù)據(jù)算力公司”為己任,堅持自主創(chuàng)新,以“DATA+AI”技術(shù)為核心,致力于打造更快、更簡單、更低成本的領(lǐng)先數(shù)據(jù)智能分析處理平臺,助力政企全面釋放數(shù)據(jù)生產(chǎn)力,在數(shù)字化轉(zhuǎn)型的道路上行穩(wěn)致遠(yuǎn),加快數(shù)字經(jīng)濟時代的到來。
相關(guān)文章
- 分析型數(shù)據(jù)庫標(biāo)準(zhǔn)研討會召開 柏睿數(shù)據(jù)推動設(shè)計規(guī)范制定工作
- 青山一道 風(fēng)雨共擔(dān)!柏睿數(shù)據(jù)科技戰(zhàn)疫,使命必達
- 柏睿數(shù)據(jù)新獲4項國家發(fā)明專利授權(quán),再添自主創(chuàng)新碩果
- 柏睿數(shù)據(jù)與新科工程電子(中國)簽約,打造智慧城市生命體
- 柏睿數(shù)據(jù)捐建城市公共危機管理與決策實驗室,打造智慧應(yīng)急數(shù)字化“樣板間”
- 柏睿數(shù)據(jù):創(chuàng)造未來智能系統(tǒng)的數(shù)據(jù)基石
- 核心技術(shù)激活高質(zhì)量發(fā)展新動能,柏睿數(shù)據(jù)新品發(fā)布
- 柏睿數(shù)據(jù)strata數(shù)據(jù)峰會:全球頂級大數(shù)據(jù)會議上的“中國紅”
- 數(shù)字中國研究院與柏睿數(shù)據(jù)共同打造新一代數(shù)據(jù)庫暨人工智能研究中心
- 柏睿數(shù)據(jù)摘得“2018亞太數(shù)字經(jīng)濟?大數(shù)據(jù)優(yōu)秀企業(yè)”獎,董事長榮獲“領(lǐng)軍人物
- 柏睿數(shù)據(jù)寄語世界互聯(lián)網(wǎng)大會新愿景,描繪數(shù)據(jù)庫發(fā)展新藍(lán)圖
- 共建一帶一路信息高地,柏睿數(shù)據(jù)簽約絲綢之路信息港
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計算”論壇圓滿召開——攜產(chǎn)界實踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機器人技能大賽在滬啟動,助推智能建造實戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機賦能中國打印
- 神眸榮獲快手“品牌標(biāo)桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動AI應(yīng)用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案