人工智能的第三支柱:數(shù)據(jù)存儲(chǔ)
2024-09-04 20:09:57AI云資訊7137
借助人工智能數(shù)據(jù)周期(AI Data Cycle)存儲(chǔ)框架,釋放數(shù)據(jù)的AI力量
西部數(shù)據(jù)公司副總裁兼中國(guó)區(qū)總經(jīng)理 蔡耀祥
西部數(shù)據(jù)公司副總裁兼中國(guó)區(qū)總經(jīng)理蔡耀祥
如今,AI無處不在。各個(gè)行業(yè)正通過對(duì)基礎(chǔ)設(shè)施進(jìn)行大量投資,來支持創(chuàng)新的應(yīng)用和用例。我們大都對(duì)于時(shí)下GPU、CPU和內(nèi)存這類以計(jì)算為主的基礎(chǔ)設(shè)施有所耳聞,而數(shù)據(jù)存儲(chǔ)作為AI的“第三支柱”,也正對(duì)AI起到更為關(guān)鍵的作用。
對(duì)于文本的AI訓(xùn)練相對(duì)簡(jiǎn)單,但當(dāng)轉(zhuǎn)向音頻、圖像以及視頻時(shí),所生成的數(shù)據(jù)量將會(huì)呈現(xiàn)指數(shù)級(jí)增長(zhǎng),對(duì)存儲(chǔ)的需求自然而然會(huì)有很快的攀升。而且隨著時(shí)間的推移,數(shù)據(jù)的總量也在持續(xù)增長(zhǎng)。IDC預(yù)計(jì)截至2028年,每年產(chǎn)生的數(shù)據(jù)總量將接近400 ZB(澤字節(jié),Zettabyte)。
在數(shù)據(jù)生成量不斷增長(zhǎng)的趨勢(shì)下,數(shù)據(jù)存儲(chǔ)技術(shù)對(duì)于人工智能數(shù)據(jù)周期(AI Data Cycle)中不同階段基礎(chǔ)設(shè)施和工作負(fù)載的容量、性能、能耗效益以及成本效益都至關(guān)重要。AI系統(tǒng)在處理和分析現(xiàn)有數(shù)據(jù)的同時(shí)也會(huì)產(chǎn)生新數(shù)據(jù),其中很多數(shù)據(jù)會(huì)因其功能性或娛樂性被保存。新型AI用例和更先進(jìn)的模型令現(xiàn)有數(shù)據(jù)資源庫(kù)和額外數(shù)據(jù)源對(duì)模型上下文和訓(xùn)練的價(jià)值更甚。數(shù)據(jù)的不斷生成促成了更多的數(shù)據(jù)存儲(chǔ),而更多的數(shù)據(jù)存儲(chǔ)又進(jìn)一步推動(dòng)數(shù)據(jù)生成,一個(gè)良性循環(huán)的人工智能數(shù)據(jù)周期就此誕生。
西部數(shù)據(jù)在今年6月正式發(fā)布了人工智能數(shù)據(jù)周期存儲(chǔ)框架,該框架闡明了在大型AI工作負(fù)載的六個(gè)階段中每一階段的存儲(chǔ)重點(diǎn),幫助企業(yè)級(jí)數(shù)據(jù)中心規(guī)劃者厘清AI和數(shù)據(jù)存儲(chǔ)之間的動(dòng)態(tài)關(guān)系。西部數(shù)據(jù)也正積極調(diào)整產(chǎn)品路線圖,以滿足在AI驅(qū)動(dòng)下不斷升級(jí)的需求,更大限度地提升性能和容量并降低能耗和TCO(總體擁有成本,Total Cost of Ownership)。
人工智能數(shù)據(jù)周期的六大階段
西部數(shù)據(jù)通過人工智能數(shù)據(jù)周期,詳細(xì)解讀了AI管道六個(gè)階段中數(shù)據(jù)從收集、訓(xùn)練到推理的存儲(chǔ)細(xì)節(jié)。
<人工智能數(shù)據(jù)周期>
讓我們簡(jiǎn)單了解一下人工智能數(shù)據(jù)周期的各個(gè)階段。
原始數(shù)據(jù)存檔,內(nèi)容存儲(chǔ):從各種來源安全高效地收集并存儲(chǔ)原始數(shù)據(jù),以用于訓(xùn)練模型。所收集數(shù)據(jù)的質(zhì)量和多樣性至關(guān)重要,為后續(xù)的所有階段奠定了基礎(chǔ)。
在此階段,查找并收集數(shù)據(jù)集需要大容量存儲(chǔ),通常來說會(huì)用到大容量企業(yè)級(jí)HDD(eHDD)。由于企業(yè)級(jí)HDD可以經(jīng)濟(jì)高效地存儲(chǔ)巨量規(guī)?;瘮?shù)據(jù),且擁有更低的TCO,被視作是建立深度內(nèi)容資源庫(kù)的理想選擇。全球線上和可訪問的冷數(shù)據(jù)及溫?cái)?shù)據(jù)都主要通過它來保存。具體來說,選用單盤容量點(diǎn)更高的HDD能夠幫助云和企業(yè)級(jí)用戶提升存儲(chǔ)密度,實(shí)現(xiàn)數(shù)據(jù)中心的規(guī)?;瘮U(kuò)展,滿足不斷增長(zhǎng)的容量需求。
數(shù)據(jù)準(zhǔn)備和轉(zhuǎn)換:在該階段,數(shù)據(jù)會(huì)被處理、清洗和轉(zhuǎn)換,以供模型訓(xùn)練使用。在AI場(chǎng)景下,這一階段需要執(zhí)行的操作很復(fù)雜,并且對(duì)性能的要求也更高。數(shù)據(jù)需要首先被轉(zhuǎn)化為AI模型可以使用的信息,包括對(duì)文本、圖片、視頻以及所有輸入AI模型的內(nèi)容進(jìn)行矢量化處理。這也是AI管道中對(duì)各方面需求都更高的階段,對(duì)計(jì)算和存儲(chǔ)基礎(chǔ)設(shè)施的要求也更加苛刻。
這是一個(gè)對(duì)性能要求很高且存儲(chǔ)密集的階段,該階段的存儲(chǔ)選擇從HDD轉(zhuǎn)向了SSD,從而建立高速數(shù)據(jù)湖以支持?jǐn)?shù)據(jù)準(zhǔn)備和轉(zhuǎn)換。在該階段,用戶會(huì)部署采用大容量企業(yè)級(jí)SSD(eSSD)的全閃存存儲(chǔ)系統(tǒng),以增強(qiáng)現(xiàn)有的基于HDD的資源庫(kù),或用于新的全閃存存儲(chǔ)層。
AI模型訓(xùn)練:AI模型會(huì)在該階段進(jìn)行反復(fù)訓(xùn)練,從而基于訓(xùn)練數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè)。具體來說,模型是在高性能超級(jí)計(jì)算機(jī)上進(jìn)行訓(xùn)練的,而訓(xùn)練效率在很大程度上取決于最大化GPU利用率和專門的高性能存儲(chǔ)。
從數(shù)據(jù)中心的角度來看,這一階段的工作負(fù)載對(duì)計(jì)算性能的要求極高,所以需要我們?cè)俅无D(zhuǎn)變存儲(chǔ)策略。這一階段理想的SSD是高性能、低容量、以計(jì)算為目的企業(yè)級(jí)SSD,確保向GPU集成系統(tǒng)輸入數(shù)據(jù)的環(huán)節(jié)不會(huì)因存儲(chǔ)性能不足而受到影響。此外,在該過程中還有很多復(fù)雜的操作,如檢驗(yàn)點(diǎn)、歸檔等,可能會(huì)根據(jù)計(jì)算狀態(tài),將整個(gè)數(shù)據(jù)集寫回?cái)?shù)據(jù)湖或進(jìn)行檢索。因此,計(jì)算密集型存儲(chǔ)和基于閃存的數(shù)據(jù)湖在該階段有時(shí)會(huì)混合應(yīng)用。
界面交互:這一階段涉及為AI模型建立用戶友好型界面,包括各類應(yīng)用程序接口(API)、儀表板和工具等,使得上下文的特定數(shù)據(jù)和終端用戶的提示可以結(jié)合起來。AI模型會(huì)被整合到現(xiàn)有的互聯(lián)網(wǎng)和客戶端應(yīng)用程序中,在不取代現(xiàn)有系統(tǒng)的情況下增強(qiáng)其功能,進(jìn)一步推動(dòng)了存儲(chǔ)需求。
這一階段的存儲(chǔ)重點(diǎn)在終端,比如在客戶端設(shè)備、移動(dòng)設(shè)備以及物聯(lián)網(wǎng)設(shè)備。這些都是真正執(zhí)行推理的地方。這里不僅有較高的性能需求來應(yīng)對(duì)推理過程,也有更大的容量需求來應(yīng)對(duì)新數(shù)據(jù)的產(chǎn)生。
兼顧性能和容量的客戶端存儲(chǔ)設(shè)備填補(bǔ)了這些需求。最終這些內(nèi)容會(huì)回到基于HDD的長(zhǎng)期內(nèi)容存儲(chǔ)系統(tǒng)中,無論是歸檔或云端的。換言之,PC和筆記本電腦需要容量更大、性能更強(qiáng)的客戶端SSD(cSSD),手機(jī)、物聯(lián)網(wǎng)系統(tǒng)和汽車會(huì)需要容量更大的嵌入式閃存設(shè)備,以在邊緣已有的應(yīng)用中增強(qiáng)AI。
AI推理引擎:第五階段是奇跡實(shí)時(shí)發(fā)生的地方。在這個(gè)階段,訓(xùn)練好的模型被部署到數(shù)據(jù)生產(chǎn)環(huán)境中,對(duì)新的數(shù)據(jù)進(jìn)行分析并提供實(shí)時(shí)的預(yù)測(cè)或者生成新的內(nèi)容。推理引擎的效率將直接影響AI響應(yīng)的及時(shí)性和準(zhǔn)確性。
這一階段需要用于緩存的高性能eSSD、用于高速數(shù)據(jù)湖的大容量eSSD、大容量cSSD以及用于AI驅(qū)動(dòng)邊緣設(shè)備的嵌入式閃存。
新內(nèi)容生成:最后一個(gè)階段是新內(nèi)容誕生的地方。AI模型所帶來的洞察分析經(jīng)常會(huì)產(chǎn)生新的數(shù)據(jù),這些數(shù)據(jù)因其價(jià)值或趣味性而被存儲(chǔ)。盡管這一階段標(biāo)志著循環(huán)的結(jié)束,但與此同時(shí)生成的新數(shù)據(jù)又會(huì)被反饋到數(shù)據(jù)周期中,通過不斷提升數(shù)據(jù)價(jià)值以用于未來模型的訓(xùn)練和分析,實(shí)現(xiàn)持續(xù)的改進(jìn)和創(chuàng)新。
生成的內(nèi)容將被存儲(chǔ)到大容量eHDD中,在數(shù)據(jù)中心實(shí)現(xiàn)大容量存儲(chǔ)、備份和歸檔。同時(shí),大容量cSSD和嵌入式閃存設(shè)備也將用于存儲(chǔ)邊緣設(shè)備中額外由AI驅(qū)動(dòng)的數(shù)據(jù)。
合理的存儲(chǔ)產(chǎn)品組合,進(jìn)一步優(yōu)化AI領(lǐng)域投資效益
上述每個(gè)階段都有著不同的基礎(chǔ)設(shè)施需求、計(jì)算需求、存儲(chǔ)需求以及不同的工作負(fù)載特性,但每個(gè)階段都是整個(gè)人工智能數(shù)據(jù)周期中不可分割的一部分。針對(duì)不同階段差異化的存儲(chǔ)需求,企業(yè)可以通過優(yōu)化存儲(chǔ)組合來應(yīng)對(duì)大規(guī)模AI運(yùn)算負(fù)載,搭建更為先進(jìn)的存儲(chǔ)基礎(chǔ)架構(gòu),進(jìn)而提高AI工作流的效率并降低TCO,進(jìn)一步優(yōu)化在AI領(lǐng)域的投資效益。
西部數(shù)據(jù)已戰(zhàn)略性地調(diào)整閃存和HDD產(chǎn)品和技術(shù)路線圖,幫助應(yīng)對(duì)人工智能數(shù)據(jù)周期中每個(gè)關(guān)鍵環(huán)節(jié)的數(shù)據(jù)存儲(chǔ)需求。
西部數(shù)據(jù)現(xiàn)已正式向指定客戶出樣具備行業(yè)領(lǐng)先容量的32TB 企業(yè)級(jí)ePMR HDD。全新的大容量Ultrastar DC HC690 UltraSMR HDD專為超大規(guī)模云和企業(yè)級(jí)數(shù)據(jù)中心的巨量數(shù)據(jù)存儲(chǔ)需求設(shè)計(jì)。在人工智能工作流這類對(duì)大規(guī)模數(shù)據(jù)存儲(chǔ)和低TCO有嚴(yán)格要求的應(yīng)用場(chǎng)景下,該產(chǎn)品可發(fā)揮重要作用。此外,憑借先進(jìn)的ePMR技術(shù)和OptiNAND技術(shù)、長(zhǎng)遠(yuǎn)的產(chǎn)品規(guī)劃和可預(yù)見的容量提升,西部數(shù)據(jù)可以幫助用戶充分應(yīng)對(duì)當(dāng)前乃至未來AI應(yīng)用對(duì)存儲(chǔ)日益增長(zhǎng)的需求。
<西部數(shù)據(jù)Ultrastar DC HC690 UltraSMR HDD>
為滿足市場(chǎng)對(duì)大容量SSD的需求,西部數(shù)據(jù)全新的企業(yè)級(jí)SSD將容量提升到了32TB和64TB,并針對(duì)人工智能數(shù)據(jù)周期中第二階段的高性能存儲(chǔ)需求和其他大容量性能存儲(chǔ)需求著重優(yōu)化。全新Ultrastar DC SN655+企業(yè)級(jí)SSD采用PCIe Gen 4接口,并集成了多項(xiàng)用于服務(wù)AI用例的軟件特性和功能。
<西部數(shù)據(jù)Ultrastar DC SN655+ 企業(yè)級(jí)SSD>
針對(duì)人工智能數(shù)據(jù)周期第三、四、五階段的高性能存儲(chǔ)需求,西部數(shù)據(jù)推出了旗下首款企業(yè)級(jí)PCIe Gen 5.0解決方案——Ultrastar DC SN861 SSD,擁有市場(chǎng)領(lǐng)先的隨機(jī)讀寫表現(xiàn),容量高達(dá)16TB,隨機(jī)讀取性能相比上一代產(chǎn)品提升約3倍,超低的延遲和非凡的響應(yīng)速度尤其適用于大語(yǔ)言模型(Large Language Model, LLM)的訓(xùn)練、推理和AI服務(wù)部署。此外,更低的能耗能夠提供更高的每瓦特IOPS(IOPS/Watt),有助于企業(yè)進(jìn)一步降低TCO。PCIe Gen 5帶來的帶寬提升滿足了AI行業(yè)計(jì)算密集型工作環(huán)境對(duì)高速計(jì)算和低時(shí)延的需求。
< 西部數(shù)據(jù)Ultrastar DC SN861企業(yè)級(jí)SSD – U.2 >
< 西部數(shù)據(jù)Ultrastar DC SN861企業(yè)級(jí)SSD – E1.S >
AI提速內(nèi)容增長(zhǎng),數(shù)據(jù)存儲(chǔ)未來可期
在數(shù)據(jù)中心,預(yù)計(jì)未來五年內(nèi),HDD 和企業(yè)級(jí)SSD 都有顯著的 EB 級(jí)增長(zhǎng)機(jī)會(huì)。
為滿足市場(chǎng)對(duì)大容量SSD的需求,西部數(shù)據(jù)全新的企業(yè)級(jí)SSD將容量提升到了32TB和64TB,并針對(duì)人工智能數(shù)據(jù)周期中第二階段的高性能存儲(chǔ)需求和其他大容量性能存儲(chǔ)需求著重優(yōu)化。全新Ultrastar DC SN655+企業(yè)級(jí)SSD采用PCIe Gen 4接口,并集成了多項(xiàng)用于服務(wù)AI用例的軟件特性和功能
在客戶端,無論是移動(dòng)設(shè)備還是PC市場(chǎng)上,越來越多的支持AI以及AI驅(qū)動(dòng)的PC和移動(dòng)設(shè)備正在涌現(xiàn)。這些設(shè)備對(duì)性能的要求更高,同時(shí)由于需要處理和存儲(chǔ)的數(shù)據(jù)量正不斷增加,對(duì)大容量的存儲(chǔ)需求也在上升。這些趨勢(shì)共同推動(dòng)了存儲(chǔ)需求的大幅度增長(zhǎng),西部數(shù)據(jù)預(yù)計(jì)在未來五年內(nèi),PC和筆記本電腦市場(chǎng)的cSSD需求會(huì)出現(xiàn)25%到35%的增長(zhǎng),智能手機(jī)的閃存需求會(huì)出現(xiàn)40%到50%的增長(zhǎng)。
人工智能數(shù)據(jù)周期展示了這一持續(xù)生成數(shù)據(jù)和使用數(shù)據(jù)的循環(huán),并闡述了這一循環(huán)是如何加速對(duì)高性能且可擴(kuò)展的存儲(chǔ)技術(shù)的需求。存儲(chǔ)對(duì)管理大型AI數(shù)據(jù)集、高效重構(gòu)復(fù)雜數(shù)據(jù)并推動(dòng)進(jìn)一步創(chuàng)新來說至關(guān)重要。西部數(shù)據(jù)深刻理解AI和數(shù)據(jù)存儲(chǔ)之間的動(dòng)態(tài)關(guān)系,在不斷提供更大容量產(chǎn)品的基礎(chǔ)上,為下一代AI工作負(fù)載所需要的極致性能和耐用性提供量身打造的存儲(chǔ)解決方案。憑借持續(xù)豐富擴(kuò)展的產(chǎn)品組合、長(zhǎng)遠(yuǎn)的技術(shù)路線和不懈突破創(chuàng)新,西部數(shù)據(jù)將幫助用戶釋放AI的革新力量,創(chuàng)造更多價(jià)值。
相關(guān)文章
- 深度契合人工智能+與智能網(wǎng)聯(lián)汽車主題,懂車帝智博會(huì)系列活動(dòng)收官
- AI能力官方認(rèn)可!合思入選超算互聯(lián)網(wǎng)《人工智能生態(tài)產(chǎn)業(yè)圖譜》
- 人工智能引領(lǐng)體育未來:第三屆全國(guó)體育人工智能大會(huì)將于10月底在京啟幕
- “人工智能+”駛?cè)肟燔嚨?,和鯨聯(lián)合聯(lián)想、沐曦首發(fā)科研智能一體機(jī)
- 艾氪智能段豐元出席2025深圳(國(guó)際)通用人工智能大會(huì),產(chǎn)業(yè)級(jí) Agentic AI 智能體集群亮相
- 容聯(lián)云入選沙利文《2025人工智能全景圖》,彰顯AI Agent領(lǐng)軍實(shí)力
- 深入實(shí)施“人工智能+”,伊頓助力皓揚(yáng)數(shù)據(jù)打造 AI 算力中心標(biāo)桿
- 新達(dá)內(nèi)與百度智能云達(dá)成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 響應(yīng)“人工智能+”行動(dòng),BodyPark以“真人+AI”破解健身行業(yè)痛點(diǎn),引領(lǐng)數(shù)字化升級(jí)
- CCF中國(guó)存儲(chǔ)大會(huì) | 浪潮存儲(chǔ)劉希猛:融合存儲(chǔ)加快“人工智能+”行動(dòng)落地
- 回應(yīng)時(shí)代,定義未來 | 漫柏集團(tuán)與阿普人工智能共建“產(chǎn)教融合人才大社區(qū)”樣板
- 微軟人工智能推出首批自研模型MAI-Voice-1語(yǔ)音模型與MAI-1預(yù)覽版
- 物聯(lián)網(wǎng)與人工智能的中國(guó)力量,年度AGIC+IOTE盛會(huì)深圳重磅開幕!
- 迎“人工智能+”政策東風(fēng)!2025中國(guó)智能產(chǎn)業(yè)大會(huì)&吳文俊人工智能創(chuàng)新大會(huì)即將落地常州
- 超千家AI企業(yè)“智匯”鵬城 2025 AGIC深圳(國(guó)際)通用人工智能大會(huì)暨產(chǎn)業(yè)博覽會(huì)啟幕
- 深入實(shí)施“人工智能+”行動(dòng)的號(hào)角已經(jīng)吹響,曠視以“升維”解碼AI未來圖景
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計(jì)算”論壇圓滿召開——攜產(chǎn)界實(shí)踐洞見共探智能時(shí)代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國(guó)
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗(yàn)
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機(jī)器人技能大賽在滬啟動(dòng),助推智能建造實(shí)戰(zhàn)人才培養(yǎng)
- 國(guó)產(chǎn)芯開行業(yè)新局,至像Z35國(guó)產(chǎn)芯系列新品打印機(jī)賦能中國(guó)打印
- 神眸榮獲快手“品牌標(biāo)桿獎(jiǎng)”,以芯片級(jí)創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時(shí)延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動(dòng)AI應(yīng)用繁榮計(jì)劃,新一期AI共創(chuàng)營(yíng)報(bào)名企業(yè)超300家
- 首都機(jī)場(chǎng)“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國(guó)首個(gè)人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會(huì)亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時(shí)達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價(jià)值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場(chǎng)特訓(xùn)營(yíng),為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會(huì)首發(fā)! 螞蟻密算推出AI密態(tài)升級(jí)卡 實(shí)現(xiàn)零改動(dòng)“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會(huì)
- 2025外灘大會(huì):王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時(shí)交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢(shì)科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個(gè)孩子提供專屬學(xué)習(xí)方案