精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

單存儲節(jié)點(diǎn)支持700+ GPU訓(xùn)練!華瑞指數(shù)云首秀登頂MLPerf全球存力榜

2025-08-07 16:28:54AI云資訊1868

北京時(shí)間8月4日23時(shí),全球最具權(quán)威的AI性能基準(zhǔn)評測組織MLCommons®正式發(fā)布了最新一輪MLPerf?Storage v2.0存儲性能基準(zhǔn)測試的結(jié)果。華瑞指數(shù)云ExponTech作為AI-Native企業(yè)級全場景數(shù)據(jù)基礎(chǔ)設(shè)施的領(lǐng)導(dǎo)者,與DDN, IBM, HPE, 華為,Hammerspace等眾多國際國內(nèi)領(lǐng)先的廠商同臺競技,憑借創(chuàng)新技術(shù)方案和產(chǎn)品參與測試,取得極為出色的成績,多項(xiàng)指標(biāo)位居世界第一。

本次測試中,ExponTech與合作伙伴英偉達(dá),Scaleflux, AIC深度合作,采用了軟件,硬件均有顯著創(chuàng)新的產(chǎn)品方案,目標(biāo)是驗(yàn)證在AI場景下,采用新一代分布式存儲軟件棧驅(qū)動(dòng)更加精簡,高效的硬件方案,達(dá)到更高的性能密度,容量密度和更低的成本,同時(shí)在網(wǎng)絡(luò)方面采用RoCE網(wǎng)絡(luò),驗(yàn)證其大規(guī)模組網(wǎng)能力以及整體存儲方案的大規(guī)模擴(kuò)展能力和并行訪問能力。

硬件方面

與其他參測者采用的許多臺高配置的存儲服務(wù)器+IB網(wǎng)絡(luò)的整體方案不同,ExponTech方案的存儲節(jié)點(diǎn)僅使用一臺2U的AIC盤框(JBOF F2026),盤框本身沒有配置CPU和內(nèi)存,沒有處理能力,主要提供很高的容量密度和硬件可靠性,2U空間可以最多配置26塊SSD盤,本次測試配置24塊Scaleflux CSD 5000帶壓縮功能的SSD盤。

盤框內(nèi)插入4張英偉達(dá)Bluefield-3 DPU卡,每個(gè)DPU提供200Gbps*2 RoCE網(wǎng)絡(luò)帶寬。ExponTech WADP分布式存儲軟件完全運(yùn)行于DPU內(nèi),提供高性能,高可靠,功能豐富的分布式存儲層。

網(wǎng)絡(luò)方面,采用4臺英偉達(dá)Spectrum-X 交換機(jī)組成一個(gè)2層的 RoCE 網(wǎng)絡(luò), 驗(yàn)證大規(guī)模組網(wǎng)時(shí)的擁塞控制能力?;谶@個(gè)2層RoCE網(wǎng)絡(luò)以及ExponTech WADP分布式存儲軟件,可以擴(kuò)展到連接1024臺盤框,形成一個(gè)EB級容量,上百TB級存儲帶寬的超大規(guī)模高性能存儲池。

軟件方面:

ExponTech WADP (WiDE AI Data Platform) 分布式存儲軟件,該軟件基于完全自主研發(fā)的下一代分布式存儲引擎WiDE以及下一代分布式元數(shù)據(jù)引擎天樞構(gòu)建,在相同的存儲池空間內(nèi),向上提供豐富的協(xié)議接口,包括塊存儲(NVMe-oF, vhost, iSCSi, CSI-NVMe-oF),文件存儲(POSIX, NFS, SMB), 對象存儲(S3),KV接口等。本次測試的WADP軟件,以分布式架構(gòu)的方式完全運(yùn)行于4張Bluefield-3 DPU內(nèi),每張DPU僅配置了一塊16核的CPU以及48GB內(nèi)存,顯示了WADP軟件棧極其高效的硬件利用效率和IO處理能力。

部署架構(gòu)圖:

測試結(jié)果

1、基于1個(gè)2U的存儲節(jié)點(diǎn)以及1個(gè)客戶端和2個(gè)客戶端的測試結(jié)果顯示,可以輕松滿足模型ResNet-50的訓(xùn)練需求,單客戶端能夠支持的GPU卡的數(shù)量最高達(dá)到240塊,帶寬23.6GiB/s,在存儲節(jié)點(diǎn)硬件采用DPU+JBOF, CPU和內(nèi)存都不是很強(qiáng)(AI 控成本)的前提下,依然領(lǐng)先參與測試的所有廠商方案,位居世界第一。具體的測試結(jié)果數(shù)據(jù)如下:

通過上述測試數(shù)據(jù)測算,ExponTech WADP使用一個(gè)2U的存儲節(jié)點(diǎn),在配置4個(gè)客戶端的場景下,可以支持超過700塊 A100 GPU訓(xùn)練卡和約400塊 H100 GPU訓(xùn)練卡的訓(xùn)練需求,穩(wěn)定提供70+GiB/s的帶寬,逼近存儲節(jié)點(diǎn)網(wǎng)絡(luò)帶寬極限。ExponTech WADP也可以支持?jǐn)U展到更多的2U存儲節(jié)點(diǎn),形成大規(guī)模高性能存儲集群,支持超大規(guī)模的AI訓(xùn)練場景。

2、MLPerf? Storage v2.0測試新推出的檢查點(diǎn)(Checkpoint)工作負(fù)載專門針對分布式擴(kuò)展系統(tǒng)中大型語言模型(LLM)的訓(xùn)練場景,重點(diǎn)優(yōu)化訓(xùn)練過程的備份與恢復(fù)速度。ExponTech WADP方案在Llama3-8B模型的實(shí)際測試數(shù)據(jù)位于全球領(lǐng)先水平。

ExponTech WADP方案的實(shí)測寫帶寬16.9GiB/s, 略低于JINIST(采用Huawei OceanStor A800方案)的19.4GiB/s以及ANL(采用開源DAOS方案)的18.1GiB/s, 位居世界第三。但是值得注意的是,ExponTech WADP方案采用的存儲硬件配置遠(yuǎn)低于前兩者,使用的物理盤容量僅為前兩者的1/5, 展現(xiàn)了極為優(yōu)異的存儲軟件棧效率。如果以Checkpoint寫入帶寬/容量來計(jì)算寫入效率,ExponTech WADP排名將遙遙領(lǐng)先居第一。

亮點(diǎn)總結(jié):

超高密度與能效,僅使用單臺2U JBOF設(shè)備搭載DPU作為存儲節(jié)點(diǎn),硬件配置規(guī)格遠(yuǎn)低于其他的測試方案,展示出了超高的容量密度,性能密度和能效。

超高性能表現(xiàn),在硬件規(guī)格非常低的前提下,依然展示了超高性能表現(xiàn),在Resnet50模型訓(xùn)練測試中,單客戶端支持的GPU卡數(shù)和帶寬排世界第一,Llama3模型的Checkpoint寫入帶寬排世界第三,但使用了最少的SSD盤數(shù),以Checkpoint寫入帶寬/容量來計(jì)算寫入效率,ExponTech WADP方案排名將遙遙領(lǐng)先居第一,展示了WADP存儲軟件極為高效的硬件利用效率。

極致I/O效率,多輪測試均穩(wěn)定保持96%以上的GPU平均利用率(AU)。

彈性擴(kuò)展能力,WADP分布式軟件架構(gòu)可并行擴(kuò)展到1024個(gè)節(jié)點(diǎn),實(shí)現(xiàn)存儲容量,IOPS和帶寬的同步并行擴(kuò)展,同時(shí)保持穩(wěn)定的微秒級時(shí)延。

可擴(kuò)展網(wǎng)絡(luò)驗(yàn)證,四臺NVIDIA Spectrum-X交換機(jī)搭建兩層RoCE網(wǎng)絡(luò),擁塞控制表現(xiàn)優(yōu)異。結(jié)合ExponTech WADP分布式存儲軟件,方案可橫向擴(kuò)展至超大規(guī)模AI訓(xùn)練/推理場景。

存儲效率倍增,ScaleFlux CSD5000 SSD提供透明數(shù)據(jù)壓縮/解壓縮,在零性能損耗、無額外資源消耗前提下實(shí)現(xiàn)存儲容量與效率倍增。

首次參與即在MLPerf? Storage v2.0 AI Storage基準(zhǔn)測試中取得優(yōu)異成績,這一成就不僅彰顯了華瑞指數(shù)云ExponTech存儲技術(shù)的強(qiáng)勁實(shí)力,更標(biāo)志著華瑞指數(shù)云ExponTech在業(yè)界又達(dá)成了一個(gè)關(guān)鍵里程碑。此次測試延續(xù)了WADP(以其子產(chǎn)品WDS名義)在2023年創(chuàng)下的SPC-1基準(zhǔn)測試世界紀(jì)錄,印證了其在企業(yè)關(guān)鍵業(yè)務(wù)(SPC-1:全球存儲性能委員會)與AI工作負(fù)載(MLPerf Storage)領(lǐng)域的雙重競爭力,是目前全球唯一的一個(gè)能夠在SPC-1和MLPerf Storage上都能夠測試出頂級成績的分布式存儲軟件,成為真正覆蓋全場景的企業(yè)級AI統(tǒng)一平臺。在未來企業(yè)把AI工作負(fù)載與企業(yè)關(guān)鍵業(yè)務(wù)進(jìn)行結(jié)合,實(shí)現(xiàn)AI能力在企業(yè)業(yè)務(wù)流程中全面落地的過程中,ExponTech WADP平臺將發(fā)揮出更加全面的價(jià)值。

未來,華瑞指數(shù)云ExponTech將在AI大模型領(lǐng)域持續(xù)深耕,不斷突破性能極限,打造全球領(lǐng)先的AI數(shù)據(jù)平臺,為企業(yè)賦能新質(zhì)生產(chǎn)力。在統(tǒng)一的數(shù)據(jù)平臺產(chǎn)品上同時(shí)承載企業(yè)的核心生產(chǎn)系統(tǒng)和 AI 數(shù)據(jù)管道,幫助企業(yè)把核心生產(chǎn)數(shù)據(jù)與 AI 能力相結(jié)合,實(shí)現(xiàn) AI 在企業(yè)級場景的快捷落地。近期,華瑞指數(shù)云ExponTech將正式發(fā)布ExponTech WADP的最新版本,一款融合支持企業(yè)級生產(chǎn)業(yè)務(wù)和AI訓(xùn)練推理業(yè)務(wù),面向企業(yè)級AI的統(tǒng)一數(shù)據(jù)平臺底座產(chǎn)品,歡迎持續(xù)關(guān)注。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews