華瑞指數(shù)云ExponTech聯(lián)合合作伙伴在硅谷發(fā)布新型AI存儲方案
2025-04-01 15:59:13AI云資訊11926
全球AI的頂級盛會GTC于3月17日到3月21日在美國硅谷盛大舉行。在GTC大會期間,華瑞指數(shù)云ExponTech CTO曹羽中受邀參加了專注于AI Storage的技術(shù)研討會并發(fā)表演講。在演講中,曹羽中介紹了ExponTech與合作伙伴ScaleFlux, AIC基于英偉達(dá)的BlueField3 DPU以及英偉達(dá)最新發(fā)布的Spectrum-X網(wǎng)絡(luò)打造的新型AI Storage方案,展示了該方案的實(shí)際測試數(shù)據(jù),并與合作伙伴,AI Storage行業(yè)專家以及一些大型客戶進(jìn)行了深入討論。與會的專家均表示該方案的實(shí)測性能數(shù)據(jù)以及綜合優(yōu)勢表現(xiàn)遠(yuǎn)超預(yù)期,具備很高的商業(yè)價(jià)值,very impressive!
新型AI存儲方案采用的軟硬件方案:
硬件:
F2026 AI服務(wù)器,是一臺2U閃存JBOF,配備2個(gè)或4個(gè)NVIDIA BlueField-3數(shù)據(jù)處理單元(DPU)和24塊高性能ScaleFlux CSD5000 NVMe SSD(CSD5000是ScaleFlux公司最新推出的一款內(nèi)置硬件壓縮與解壓縮能力的高性能NVMe SSD介質(zhì));
NVIDIA Spectrum-X網(wǎng)絡(luò)交換機(jī);
軟件:
華瑞指數(shù)云ExponTech下一代分布式存儲軟件平臺WADP (WiDE AI Data Platform);
(本方案采用的2U存儲節(jié)點(diǎn)及ScaleFlux CSD5000 NVMe SSD)
基于此方案的AI訓(xùn)練和推理環(huán)境的實(shí)測部署架構(gòu)如下圖:
1臺2U AIC JBOF作為存儲服務(wù)器, 配備4塊NVIDIA BlueField3 DPU, 提供1600Gbps網(wǎng)絡(luò)帶寬,24塊ScaleFlux CSD5000 NVMe SSD,ExponTech WADP存儲軟件的后端運(yùn)行于BlueField3 DPU內(nèi);
1臺標(biāo)準(zhǔn)2U服務(wù)器作為計(jì)算服務(wù)器,配備4塊NVIDIA BlueField3 DPU,提供800Gbps網(wǎng)絡(luò)帶寬,在DPU內(nèi)部運(yùn)行ExponTech WADP存儲軟件的存儲網(wǎng)關(guān)和協(xié)議;
計(jì)算服務(wù)器上可以配置GPU,用于訓(xùn)練或推理,存儲軟件和網(wǎng)絡(luò)流量運(yùn)行于DPU內(nèi),存儲IO不會消耗計(jì)算服務(wù)器的CPU和內(nèi)存資源,計(jì)算服務(wù)器可以擁有更充沛的資源用于計(jì)算處理;
測試環(huán)境特別選擇了4臺NVIDIA Spectrum-X交換機(jī)組成兩層網(wǎng)絡(luò),主要是為了模擬與驗(yàn)證在大規(guī)模組網(wǎng)的情況下,RoCE網(wǎng)絡(luò)是否依然可以很好的處理擁塞,存儲軟件可以依然保持穩(wěn)定的存儲性能和低時(shí)延;
存儲服務(wù)器(JBOF)和計(jì)算服務(wù)器均可以按需獨(dú)立擴(kuò)展,按需加入更多的存儲服務(wù)器(JBOF)或者計(jì)算服務(wù)器,構(gòu)成大規(guī)模的,存算分離的,按需擴(kuò)展的AI訓(xùn)練和推理集群。
基礎(chǔ)存儲性能驗(yàn)證:
基于上一節(jié)所述的實(shí)測部署環(huán)境,進(jìn)行了存儲系統(tǒng)的基礎(chǔ)性能驗(yàn)證,其驗(yàn)證方法是從計(jì)算節(jié)點(diǎn)上運(yùn)行FIO,測試存儲系統(tǒng)的基礎(chǔ)性能指標(biāo)。
單個(gè)計(jì)算節(jié)點(diǎn)可以達(dá)到近90GB/s的存儲帶寬,接近計(jì)算節(jié)點(diǎn)網(wǎng)卡的物理帶寬上限;
單個(gè)計(jì)算節(jié)點(diǎn)可以達(dá)到310萬IOPS,當(dāng)配置更多的計(jì)算節(jié)點(diǎn)時(shí),可以同步獲得更多的IOPS??紤]到整個(gè)存儲系統(tǒng)的后端以及協(xié)議端都是跑在DPU內(nèi),DPU內(nèi)的CPU處理性能遠(yuǎn)遠(yuǎn)不如服務(wù)器配置的CPU,單個(gè)計(jì)算節(jié)點(diǎn)+單個(gè)存儲節(jié)點(diǎn)即達(dá)到310萬IOPS已經(jīng)充分展現(xiàn)了本方案相當(dāng)驚人的IO處理效率;
存儲系統(tǒng)的IOPS與存儲節(jié)點(diǎn)上部署的數(shù)據(jù)處理單元(DPU)數(shù)量呈線性比例擴(kuò)展,系統(tǒng)的IOPS隨DPU部署數(shù)量線性擴(kuò)展,表明其具備極佳的橫向擴(kuò)展能力。本方案采用的存儲節(jié)點(diǎn)最多可以配置8張DPU(當(dāng)前測試環(huán)境配置4張),還可以實(shí)現(xiàn)IOPS性能翻倍以及網(wǎng)絡(luò)帶寬翻倍;
存儲系統(tǒng)在使用小IO size時(shí),并發(fā)大壓力時(shí)延低至266us, 在使用大IO size時(shí),打滿計(jì)算節(jié)點(diǎn)的網(wǎng)絡(luò)物理帶寬,時(shí)延還能始終保持在1毫秒以下。
MLPerfStorage v1.0測試結(jié)果:
MLPerf? 是影響力最廣的國際AI性能基準(zhǔn)評測,MLPerf? Storage是針對AI Storage的基準(zhǔn)性能測試,可以較為全面的評估測試AI應(yīng)用程序的存儲需求。MLPerf? Storage基準(zhǔn)測試通過運(yùn)行一個(gè)分布式訓(xùn)練測試程序,模擬GPU計(jì)算過程,在此過程中真實(shí)的執(zhí)行AI服務(wù)器對存儲系統(tǒng)的讀寫訪問,以此來測試存儲系統(tǒng)能夠支撐的最大GPU數(shù)量和帶寬表現(xiàn)。
MLPerf Storage v1.0于2024年8月推出,國內(nèi)外一共有十三家從事高性能存儲研發(fā)的廠家參與了測試并提交正式測試結(jié)果,其中包括DDN(Lustre),華為,WekaIO,Hammerspace等知名的分布式文件系統(tǒng)廠家。
本次我們選擇了ResNet50模型(主要用于圖像分類和圖像識別場景),在上述1存儲節(jié)點(diǎn)(JBOF)+1計(jì)算節(jié)點(diǎn)的測試環(huán)境上進(jìn)行了MLPerf Storage v1.0基準(zhǔn)測試,測試的結(jié)果如下:
測試結(jié)果表明:
ExponTech的新型AI存儲方案具備全球領(lǐng)先的性能,單客戶端能夠支持的GPU卡的數(shù)量超過了所有參與了MLPerf Storage v1.0正式測試的廠商,位居全球第一;單客戶端能夠?qū)崿F(xiàn)的存儲帶寬達(dá)到近30GB/s,位居全球第二;本次測試環(huán)境只有一個(gè)客戶端節(jié)點(diǎn)(計(jì)算節(jié)點(diǎn)),CPU和內(nèi)存配置較低,在運(yùn)行MLPerf Storage v1.0的測試中已經(jīng)達(dá)到了客戶端節(jié)點(diǎn)的計(jì)算能力的瓶頸,但是還遠(yuǎn)遠(yuǎn)沒有達(dá)到存儲節(jié)點(diǎn)的存儲能力的瓶頸。如果換用處理能力更強(qiáng)的計(jì)算節(jié)點(diǎn)來做測試,可以測試出更高的性能數(shù)據(jù),即支持更多的GPU卡,實(shí)現(xiàn)更高的存儲帶寬。
總結(jié)
基于本次在真實(shí)的環(huán)境上的全面測試,總結(jié)一下ExponTech與合作伙伴ScaleFlux, AIC基于英偉達(dá)的BlueField3 DPU以及英偉達(dá)最新發(fā)布的Spectrum-X網(wǎng)絡(luò)打造的新型AI Storage方案的關(guān)鍵特點(diǎn)和優(yōu)勢:
世界頂級性能,SPC-1 評測超越所有高端全閃存儲陣列,打破世界紀(jì)錄,MLPerf Storage v1.0測試數(shù)據(jù)大幅度超越WekaIO, DDN等著名并行文件系統(tǒng);
世界頂級容量密度,當(dāng)前每2U Storage Node可實(shí)現(xiàn)超過1.6PB存儲裸容量,明年可擴(kuò)展至每2U超過6.6PB,最大化數(shù)據(jù)中心空間的AI數(shù)據(jù)價(jià)值;
配置的ScaleFlux CSD5000 NVMe SSD具有盤內(nèi)透明壓縮解壓縮能力,能夠在不消耗額外系統(tǒng)資源,不影響性能的情況下實(shí)現(xiàn)存儲裸容量的數(shù)倍放大,存儲容量效率獲得驚人的提升;
同一平臺上同時(shí)支持高性能分布式塊存儲和文件存儲等多種協(xié)議,除了支持AI的訓(xùn)練和推理場景,還可以覆蓋數(shù)據(jù)匯集,數(shù)據(jù)準(zhǔn)備,RAG等AI Pipeline全場景,無須為AI Pipeline配置不同的存儲方案以及反復(fù)進(jìn)行數(shù)據(jù)拷貝移動(dòng),可以實(shí)現(xiàn)AI算力和存力的完全存算分離和獨(dú)立擴(kuò)展,具備更好的可管理性和效率;
強(qiáng)大的并行擴(kuò)展性,存儲節(jié)點(diǎn)及計(jì)算節(jié)點(diǎn)均可以獨(dú)立的水平擴(kuò)展,同時(shí)實(shí)現(xiàn)存儲性能和容量的等比例擴(kuò)展;
可靠性高,可維護(hù)性高,存儲節(jié)點(diǎn)采用相比標(biāo)準(zhǔn)服務(wù)器更為精簡的JBOF,硬件故障率更低,同時(shí)JBOF內(nèi)部采用冗余的硬件設(shè)計(jì)來保障可靠性,提升可維護(hù)性;
支持基于RoCE的超大規(guī)模組網(wǎng),采用RoCE動(dòng)態(tài)路由和細(xì)粒度的負(fù)載均衡實(shí)現(xiàn)更好的擁塞控制,基于標(biāo)準(zhǔn)以太網(wǎng)在大規(guī)模RDMA組網(wǎng)中實(shí)現(xiàn)高效帶寬, 低抖動(dòng)和超低時(shí)延;
優(yōu)化的總體擁有成本(TCO),高密度的存儲節(jié)點(diǎn)+透明盤內(nèi)壓縮+新型軟件定義存儲軟件的組合簡化了硬件成本,大幅度提升了存儲空間利用效率和讀寫性能,簡化了管理,AI客戶將因此大幅度優(yōu)化其AI Storage的總體擁有成本(TCO);
基于此方案的KV Cache大規(guī)模持久化方案也即將推出,實(shí)現(xiàn)AI推理集群內(nèi)的K,V向量的全局共享,能夠以低成本高性能的大規(guī)模存儲能力替代AI推理過程中K,V向量的大量重復(fù)運(yùn)算,實(shí)現(xiàn)AI推理算力成本的大幅降低。
相關(guān)文章
- CCF存儲系統(tǒng)測評發(fā)榜,浪潮存儲全面領(lǐng)先!
- CCF中國存儲大會 | 浪潮存儲劉希猛:融合存儲加快“人工智能+”行動(dòng)落地
- 打破傳統(tǒng)AI存儲器性能和容量瓶頸:華為發(fā)布AI SSD系列新品
- 《2025存力發(fā)展報(bào)告》:我國存力規(guī)模達(dá)1680EB,國產(chǎn)存儲介質(zhì)、芯片、系統(tǒng)實(shí)現(xiàn)三級突破
- 霄云科技銀河存儲:重構(gòu)AI時(shí)代的存儲新范式
- 華瑞指數(shù)云發(fā)布AI原生數(shù)據(jù)平臺WADP:統(tǒng)一的通用存儲架構(gòu),重構(gòu)AI時(shí)代數(shù)據(jù)基座
- 大模型推理成本居高不下,浪潮存儲幫你來突圍!
- 適配大疆 Osmo 360,雷克沙 SILVER PLUS micro SD 的存儲優(yōu)勢
- 算力之后看存力,英韌科技洞庭-N3X SSD推動(dòng)AI和邊緣計(jì)算存儲升級
- 數(shù)據(jù)重建異常耗時(shí) 深信服EDS存儲通過創(chuàng)新技術(shù)提升可靠性
- 中國力量閃耀MLPerf!泛聯(lián)信息強(qiáng)勢包攬7項(xiàng)世界第一,引領(lǐng)AI存儲新時(shí)代!
- 華為OceanStor A系列存儲再登MLPerf全球性能之巔
- 單存儲節(jié)點(diǎn)支持700+ GPU訓(xùn)練!華瑞指數(shù)云首秀登頂MLPerf全球存力榜
- 節(jié)點(diǎn)集群帶寬突破 513GBps 焱融存儲再度登頂MLPerf Storage 全球榜單
- aigo存儲與 TEC 無畏契約分部達(dá)成戰(zhàn)略合作
- aigo存儲與TEC無畏契約分部達(dá)成戰(zhàn)略合作
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計(jì)算”論壇圓滿召開——攜產(chǎn)界實(shí)踐洞見共探智能時(shí)代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗(yàn)
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機(jī)器人技能大賽在滬啟動(dòng),助推智能建造實(shí)戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機(jī)賦能中國打印
- 神眸榮獲快手“品牌標(biāo)桿獎(jiǎng)”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時(shí)延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動(dòng)AI應(yīng)用繁榮計(jì)劃,新一期AI共創(chuàng)營報(bào)名企業(yè)超300家
- 首都機(jī)場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個(gè)人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時(shí)達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價(jià)值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實(shí)現(xiàn)零改動(dòng)“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時(shí)交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個(gè)孩子提供專屬學(xué)習(xí)方案