昇思多維混合分布式并行技術(shù),助力伙伴快速復(fù)現(xiàn)Llama 3.1-405B大模型
2024-09-10 11:13:15AI云資訊103303
摘要:10倍級調(diào)優(yōu)效率、分鐘級任務(wù)恢復(fù)!昇思助力千億模型快穩(wěn)訓(xùn)練
基于昇騰AI大集群,運(yùn)營商伙伴基于昇思MindSpore AI框架成功實現(xiàn)了Llama3.1-405B大模型的訓(xùn)練。數(shù)據(jù)顯示,本次模型訓(xùn)練性能與原生方案持平,訓(xùn)練效率及穩(wěn)定性顯著提升,展示了昇騰AI處理器與昇思AI框架軟硬結(jié)合的強(qiáng)大能力。
本次聯(lián)合創(chuàng)新,是運(yùn)營商伙伴聯(lián)合昇思首次在超大規(guī)模集群上,快速打造基于昇思MindSpore版本的開源千億稠密大模型,且實現(xiàn)適配后模型原生、訓(xùn)練效率提升。
根據(jù)公開報道,Llama3.1-405B原生訓(xùn)練耗時持續(xù)54天,累計發(fā)生419次故障,平均每3小時產(chǎn)生一次,模型訓(xùn)練耗時長、穩(wěn)定性要求高,如何優(yōu)化訓(xùn)練性能、提升執(zhí)行效率,同時提升穩(wěn)定性,成為加速模型訓(xùn)練、提升模型精度的關(guān)鍵。面向訓(xùn)得快、訓(xùn)得穩(wěn)等需求,昇思MindSpore提供了大模型開發(fā)套件、多維混合分布式并行、斷點(diǎn)續(xù)訓(xùn)等能力,支持Llama3.1-405B又快又穩(wěn)訓(xùn)練。
一、10倍級調(diào)優(yōu)效率提升,任務(wù)拉起快、分布式配置策略便捷
MindSpore Transformers大模型開發(fā)套件支持一鍵YAML配置多維并行切分策略,使用開發(fā)的套件的訓(xùn)練組件,相較業(yè)界其他產(chǎn)品更簡潔易用,快速在超大集群上拉起千億稠密模型任務(wù),提升計算的調(diào)度效率。
同時,套件封裝輕量接口調(diào)用分布式并行接口,使用數(shù)據(jù)并行、模型并行、流水線并行、細(xì)粒度多副本并行、序列并行等多種策略混合,配合offset參數(shù)調(diào)整模型切分策略,實現(xiàn)模型切分的計算與內(nèi)存負(fù)載均衡,解決內(nèi)存瓶頸問題,最大化昇騰硬件性能釋放,結(jié)合LazyInline等特性,提升內(nèi)存復(fù)用效率。此外,依托計算通信多流水并行、運(yùn)行時流水異步調(diào)度,算子融合等多種加速優(yōu)化特性,進(jìn)一步提升模型性能。
此外,MindSpore的內(nèi)存復(fù)用技術(shù)進(jìn)一步優(yōu)化了資源使用,降低了重復(fù)計算的比例,使得大規(guī)模訓(xùn)練更加高效。
模型的調(diào)試調(diào)優(yōu)依托MindSpore提供的Dryrun模擬功能,實現(xiàn)單卡仿真集群分布式策略選擇。訓(xùn)練時在離線的單卡場景進(jìn)行模型訓(xùn)練的內(nèi)存瓶頸分析、并行策略調(diào)優(yōu),無需占用超大集群,并將單卡模擬的分布式策略直接映射到超大集群應(yīng)用,在小時級時間尺度上調(diào)試出接近極致性能的405B并行策略配置,相對于傳統(tǒng)的大集群上直接調(diào)優(yōu),效率提升10倍以上,同時,降低開發(fā)者選擇分布式并行策略門檻,節(jié)省大量硬件資源及時間成本。
二、20分鐘內(nèi)實現(xiàn)任務(wù)恢復(fù):斷點(diǎn)續(xù)訓(xùn)與編譯緩存技術(shù)
面對千億參數(shù)模型在超大集群的頻繁中斷問題,昇思MindSpore通過編譯緩存技術(shù),打造確定性CKPT,支持?jǐn)帱c(diǎn)續(xù)訓(xùn),以小時級顆粒度進(jìn)行任務(wù)保存,減少中斷時訓(xùn)練進(jìn)度的丟失。斷點(diǎn)續(xù)訓(xùn)顯著縮短了故障情況下任務(wù)重新拉起的耗時,斷點(diǎn)續(xù)訓(xùn)自故障發(fā)生至新訓(xùn)練出loss時間跨度縮至20分鐘內(nèi),大幅減少了長時間任務(wù)中斷后重新啟動的等待時間。
未來,昇思MindSpore將攜手更多伙伴,在自主創(chuàng)新的軟硬件基礎(chǔ)平臺上,原生孵化、適配支持更多全球范圍的主流模型,加速使能大模型創(chuàng)新,推動AI應(yīng)用落地。
相關(guān)文章
- 奮楫逐浪,迎風(fēng)遠(yuǎn)航——昇思開發(fā)者大會成功舉辦,MindSpore 2.6版本重磅發(fā)布
- 嘉為藍(lán)鯨OpsPilot與華為昇思完成兼容性認(rèn)證,共筑運(yùn)維AI融合新生態(tài)
- 深度融合華為昇思,青云科技智算通過昇騰兼容性認(rèn)證
- 云從科技出席昇思人工智能框架峰會 發(fā)布原生大模型成果
- 昇思開源4年份額達(dá)30%,使能超50主流大模型
- 途普科技企業(yè)知識中臺完成華為昇思MindSpore技術(shù)認(rèn)證
- 昇思多維混合分布式并行技術(shù),助力伙伴快速復(fù)現(xiàn)Llama 3.1-405B大模型
- 加速原生創(chuàng)新,智譜攜手昇騰、昇思打造自主創(chuàng)新原生模型
- 昇騰與昇思原生,助力智譜打造自主創(chuàng)新大模型體系!
- 昇思人工智能框架峰會2024圓滿落幕|軟通動力大模型一體機(jī)發(fā)布
- 昇思MindSpore 2.3全新發(fā)布 | 昇思人工智能框架峰會2024圓滿舉辦
- WAIC亮點(diǎn)直擊:昇思MindSpore展區(qū)引領(lǐng)AI技術(shù)創(chuàng)新
- 昇思MindSpore:人工智能的創(chuàng)新之源
- 華為推出首個開源云原生AI衛(wèi)星應(yīng)用方案 昇思MindSpore積極賦能
- 昇思MindSpore1.6發(fā)布 AI開發(fā)者體驗再升級
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運(yùn)載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
- 筑牢安全芯基石,紫光同芯無線充電鑒權(quán)芯片T9系列亮相2025(秋季)亞洲充電展
人工智能產(chǎn)業(yè)
更多>>- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案