天工一刻 | 一文看懂MoE混合專家大模型
2024-05-07 11:15:42AI云資訊1756
隨著大模型技術(shù)迎來顛覆性突破,新興AI應(yīng)用大量涌現(xiàn),不斷重塑著人類、機器與智能的關(guān)系。
為此,昆侖萬維集團重磅推出《天工一刻》系列產(chǎn)業(yè)觀察欄目。在本欄目中,我們將對大模型產(chǎn)業(yè)熱點、技術(shù)創(chuàng)新、應(yīng)用案例進行深度解讀,同時邀請學(xué)術(shù)專家、行業(yè)領(lǐng)袖分享優(yōu)秀的大模型行業(yè)趨勢、技術(shù)進展,以饗讀者。
MoE混合專家大模型最近究竟有多火?
舉個例子,在此前的GTC 2024上,英偉達PPT上的一行小字,吸引了整個硅谷的目光。
“GPT-MoE 1.8T”
這行小字一出來,X(推特)上直接炸鍋了。
“GPT-4采用了MoE架構(gòu)”,這條整個AI圈瘋傳已久的傳言,竟然被英偉達給“無意中”坐實了。消息一出,大量AI開發(fā)者們在社交平臺上發(fā)帖討論,有的看戲吐槽、有的認真分析、有的開展技術(shù)對比,一時好不熱鬧。
MoE大模型的火熱,可見一斑。
近半年多以來,各類MoE大模型更是層出不窮。在海外,OpenAI推出GPT-4、谷歌推出Gemini、Mistral AI推出Mistral、連馬斯克xAI的最新大模型Grok-1用的也是MoE架構(gòu)。
而在國內(nèi),昆侖萬維也于今年4月17日正式推出了新版MoE大語言模型「天工3.0」,擁有4000億參數(shù),超越了3140億參數(shù)的Grok-1,成為全球最大的開源MoE大模型。
MoE究竟是什么?它有哪些技術(shù)原理?它的優(yōu)勢和缺點是什么?它又憑什么能成為當(dāng)前最火的大模型技術(shù)?
以上問題,本文將逐一回答。
MoE核心邏輯:術(shù)業(yè)有專攻
MoE,全稱Mixture of Experts,混合專家模型。
MoE是大模型架構(gòu)的一種,其核心工作設(shè)計思路是“術(shù)業(yè)有專攻”,即將任務(wù)分門別類,然后分給多個“專家”進行解決。
與MoE相對應(yīng)的概念是稠密(Dense)模型,可以理解為它是一個“通才”模型。
一個通才能夠處理多個不同的任務(wù),但一群專家能夠更高效、更專業(yè)地解決多個問題。
(圖片來源:《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》)
上圖中,左側(cè)圖為傳統(tǒng)大模型架構(gòu),右圖為MoE大模型架構(gòu)。
兩圖對比可以看到,與傳統(tǒng)大模型架構(gòu)相比,MoE架構(gòu)在數(shù)據(jù)流轉(zhuǎn)過程中集成了一個專家網(wǎng)絡(luò)層(紅框部分)。
下圖為紅框內(nèi)容的放大展示:
(圖片來源:Zian (Andy) Wang)
專家網(wǎng)絡(luò)層的核心由門控網(wǎng)絡(luò)(Gating Network)和一組專家模型(Experts)構(gòu)成,其工作流程大致如下:
1、數(shù)據(jù)首先會被分割多個區(qū)塊(Token),每組數(shù)據(jù)進入專家網(wǎng)絡(luò)層時,首先會進入門控網(wǎng)絡(luò)。
2、門控網(wǎng)絡(luò)將每組數(shù)據(jù)分配給一個或多個專家,每個專家模型可以專注于處理該部分數(shù)據(jù),“讓專業(yè)的人做專業(yè)的事”。
3、最終,所有專家的輸出結(jié)果匯總,系統(tǒng)進行加權(quán)融合,得到最終輸出。
當(dāng)然,以上只是一個概括性描述,關(guān)于門控網(wǎng)絡(luò)的位置、模型、專家數(shù)量、以及MoE與Transformer架構(gòu)的具體結(jié)合方案,各家方案都略有差別,但核心思路是一致的。
與一個“通才網(wǎng)絡(luò)”相比,一組術(shù)業(yè)有專攻的“專家網(wǎng)絡(luò)”能夠提供更好的模型性能、更好地完成復(fù)雜的多種任務(wù),同時,也能夠在不顯著增加計算成本的情況下大幅增加模型容量,讓萬億參數(shù)級別的大模型成為可能。
Scaling Law:讓模型更大
MoE之所以受到整個AI大模型行業(yè)的追捧,一個核心的原因是——今天的大模型,正迫切地需要變得更大。
而這一切的原因,則要追溯到Scaling Law。
Scaling Law,規(guī)模定律,也譯為縮放定律。這不是一個嚴格的數(shù)學(xué)定律,它只是用來描述物理、生物、計算機等學(xué)科中關(guān)于系統(tǒng)復(fù)雜屬性變化的規(guī)律。
而在大語言模型里,從Scaling Law能夠衍生出一個通俗易懂的結(jié)論:
“模型越大,性能越好?!?
更準確的描述是:當(dāng)AI研究人員不斷增加大語言模型的參數(shù)規(guī)模時,模型的性能將得到顯著提升,不僅能獲得強大的泛化能力,甚至出現(xiàn)智能涌現(xiàn)。
自人工智能誕生以來,人們一直試圖設(shè)計出更巧妙的算法、更精密的架構(gòu),希望通過人類的智慧將機器設(shè)計得更聰明,達到通用人工智能。
但以O(shè)penAI為代表的業(yè)內(nèi)另一種聲音說:“我反對!”
2019年,機器學(xué)習(xí)先驅(qū)Rich Sutton曾經(jīng)發(fā)表過一篇經(jīng)典文章《The Bitter Lesson》,該文幾乎被全體OpenAI成員奉為圭臬。
文中認為,也許這種傳統(tǒng)方法是一種錯誤的思路;也許試圖用人類智慧設(shè)計出通用人工智能的這個路徑,在過去幾十年間,讓整個行業(yè)都走了大量彎路,付出了苦澀的代價。
而真正正確的路徑是:不斷擴大模型規(guī)模,再砸進去天文數(shù)字的強大算力,讓Scaling Law創(chuàng)造出更“聰明”的人工智能,而不是靠人類自己去設(shè)計。
在這一輪大模型火起來之前,遵循這一思路的科學(xué)家一直是業(yè)內(nèi)的少數(shù)派,但自從GPT路線在自然語言處理上大獲成功之后,越來越多研究人員加入這一陣列。
追求更大的模型,成為了人工智能性能突破的一大核心思路。
然而問題隨之而來。
眾所周知,隨著大模型越來越大,模型訓(xùn)練的困難程度、資源投入、訓(xùn)練時間都在指數(shù)型提升,可模型效果卻無法保證等比例提升。
隨著模型越來越大,穩(wěn)定性也越來越差,種種綜合原因讓大模型參數(shù)量長久以來限制在百億與千億級別,難以進一步擴大。
如何在有限的計算資源預(yù)算下,如何訓(xùn)練一個規(guī)模更大、效果更好的大模型,成為了困擾行業(yè)的問題。
此時,人們將目光投向了MoE。
MoE:突破萬億參數(shù)大關(guān)
早在1991年,兩位人工智能界的泰斗Michael Jordan與Geoffrey Hinton就聯(lián)手發(fā)布了MoE領(lǐng)域的奠基論文《Adaptive Mixtures of Local Experts》,正式開創(chuàng)了這一技術(shù)路徑。
2020年,《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》論文又首次將MoE技術(shù)引入到Transformer架構(gòu)中,拉開了“MoE+大模型”的大幕。
2022年,Google《Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity》論文中提出的MoE大模型更是一舉突破了萬億參數(shù)大關(guān)。
Switch Transformers模型參數(shù)達到1.57萬億,與此前的T5模型相比,在相同的計算資源下獲得高達7倍的模型預(yù)訓(xùn)練速度提升,并實現(xiàn)了4倍的模型加速。
而正如文章開頭所言,本屆GTC上英偉達側(cè)面證實了那個公認的傳言:OpenAI在2023年推出的GPT-4,同樣采用了MoE架構(gòu),其模型效果與計算效率都得到了顯著提升。
總結(jié)起來,MoE在大模型領(lǐng)域的優(yōu)勢包括:
1、與傳統(tǒng)的Dense模型相比,MoE能夠在遠少于前者所需的計算資源下進行有效的預(yù)訓(xùn)練,計算效率更高、速度更快,進而使得模型規(guī)模得到顯著擴大,獲得更好的AI性能。
2、由于MoE在模型推理過程中能夠根據(jù)輸入數(shù)據(jù)的不同,動態(tài)地選擇不同的專家網(wǎng)絡(luò)進行計算,這種稀疏激活的特性能夠讓模型擁有更高的推理計算效率,從而讓用戶獲得更快的AI響應(yīng)速度。
3、由于MoE架構(gòu)中集成了多個專家模型,每個專家模型都能針對不同的數(shù)據(jù)分布和構(gòu)建模式進行搭建,從而顯著提升大模型在各個細分領(lǐng)域的專業(yè)能力,使得MoE在處理復(fù)雜任務(wù)時性能顯著變好。
4、針對不同的專家模型,AI研究人員能夠針對特定任務(wù)或領(lǐng)域的優(yōu)化策略,并通過增加專家模型數(shù)量、調(diào)整專家模型的權(quán)重配比等方式,構(gòu)建更為靈活、多樣、可擴展的大模型。
不過,天下沒有免費的性能提升,在擁有種種優(yōu)勢之于,MoE架構(gòu)也存在著不少挑戰(zhàn)。
由于MoE需要把所有專家模型都加載在內(nèi)存中,這一架構(gòu)對于顯存的壓力將是巨大的,通常涉及復(fù)雜的算法和高昂的通信成本,并且在資源受限設(shè)備上部署受到很大限制。
此外,隨著模型規(guī)模的擴大,MoE同樣面臨著訓(xùn)練不穩(wěn)定性和過擬合的問題、以及如何確保模型的泛化性和魯棒性問題、如何平衡模型性能和資源消耗等種種問題,等待著大模型開發(fā)者們不斷優(yōu)化提升。
結(jié)語
總結(jié)來說,MoE架構(gòu)的核心思想是將一個復(fù)雜的問題分解成多個更小、更易于管理的子問題,并由不同的專家網(wǎng)絡(luò)分別處理。這些專家網(wǎng)絡(luò)專注于解決特定類型的問題,通過組合各自的輸出來提供最終的解決方案,提高模型的整體性能和效率。
當(dāng)前,MoE仍舊是一個新興的大模型研究方向,研究資料少、資源投入大、技術(shù)門檻高,其研發(fā)之初仍舊以海外巨頭為主導(dǎo),國內(nèi)只有昆侖萬維等少數(shù)玩家能夠推出自研MoE大模型。
不過,值得注意的是,雖然以擴大模型參數(shù)為核心的“暴力出奇跡”路線主導(dǎo)了當(dāng)前的人工智能行業(yè)研究,但時至今日也沒有人能拍著胸脯保證,Scaling Law就是人類通往通用人工智能的唯一正確答案。
從1991年正式提出至今,MoE架構(gòu)已歷經(jīng)了30年歲月;深度神經(jīng)網(wǎng)絡(luò)更是70年前就已提出的概念,直到近十多年間才取得突破,帶領(lǐng)人類攀上人工智能的又一座高峰。
MoE不是人工智能技術(shù)前進道路的終點,它甚至不會是大模型技術(shù)的最終答案。未來,還將有大量感知、認知、計算、智能領(lǐng)域的挑戰(zhàn)擺在研究者面前,等待著人們?nèi)ブ鹨唤鉀Q。
所幸的是,怕什么真理無窮,進一寸有一寸的歡喜。
參考資料:
1、GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
2、Mixture of Experts: How an Ensemble of AI Models Decide As One
3、Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
4、「天工2.0」MoE大模型發(fā)布
相關(guān)文章
- Soul全雙工語音大模型升級 迭代人機交互體驗感
- 模型選型專題系列 | 業(yè)界首個!元景MaaS平臺上線《大模型選型說明書》
- 獲央視點贊 深蘭科技AI醫(yī)療大模型落地打浦橋街道社區(qū)服務(wù)中心
- 新達內(nèi)與百度智能云達成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案
- 打造廣東首個地方文獻專題處理AI大模型,南沙區(qū)圖書館“阿貝數(shù)字人”項目重磅上線!
- 商湯大裝置躋身中國大模型平臺市場頭部廠商,萬象平臺加速AI落地“最后一公里”
- DFRobot 亮相貿(mào)澤電子 elexcon 2025 展臺,展示與Qwen3 大模型融合的AI 應(yīng)用
- 曠視趙康:做大模型的“煉金術(shù)士”,讓AI在千行百業(yè)中兌現(xiàn)價值
- 云軸科技ZStack入選IDC大模型推理算力市場報告典型廠商
- 中國具身大模型初創(chuàng)公司眸深智能獲得IJCAI2025杰出論文獎,唯一獲獎大陸團隊!
- 心率血氧監(jiān)測新玩法:行空板M10融合AI大模型,讓數(shù)據(jù)會“說話”
- 特斯拉在中國市場放棄xAI的Grok大模型 選擇接入DeepSeek AI技術(shù)
- 昇騰助力中科大團隊實現(xiàn)MoE 稀疏大模型并行推理提速超30%
- 聚焦制造業(yè)智能化轉(zhuǎn)型 中國科學(xué)技術(shù)大學(xué)依托昇騰突破知識增強大模型關(guān)鍵技術(shù)
- 大模型推理成本居高不下,浪潮存儲幫你來突圍!
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計算”論壇圓滿召開——攜產(chǎn)界實踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機器人技能大賽在滬啟動,助推智能建造實戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機賦能中國打印
- 神眸榮獲快手“品牌標桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動AI應(yīng)用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案