源2.0-M32大模型發(fā)布量化版 運行顯存僅需23GB 性能可媲美LLaMA3
2024-08-26 17:15:26AI云資訊153210
源2.0-M32量化版是"源"大模型團隊為進一步提高模算效率,降低大模型部署運行的計算資源要求而推出的版本,通過采用領先的量化技術,將原模型精度量化至int4和int8級別,并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率,在不同硬件和軟件環(huán)境中均能高效運行,降低了模型移植和部署門檻,讓用戶使用更少的計算資源,就能獲取源2.0-M32大模型的強大能力。
源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其創(chuàng)新性地提出和采用了"基于注意力機制的門控網絡"技術,構建包含32個專家(Expert)的混合專家模型(MoE),模型運行時激活參數(shù)為37億,在業(yè)界主流基準評測中性能全面對標700億參數(shù)的LLaMA3開源大模型,大幅提升了模型算力效率。
模型量化(Model Quantization)是優(yōu)化大模型推理的一種主流技術,它顯著減少了模型的內存占用和計算資源消耗,從而加速推理過程。然而,模型量化可能會影響模型的性能。如何在壓縮模型的同時維持其精度,是量化技術面臨的核心挑戰(zhàn)。
源2.0-M32大模型研發(fā)團隊深入分析當前主流的量化方案,綜合評估模型壓縮效果和精度損失表現(xiàn),最終采用了GPTQ量化方法,并采用AutoGPTQ作為量化框架。為了確保模型精度最大化,一方面定制化適配了適合源2.0-M32結構的算子,提高了模型的部署加載速度和多線程推理效率,實現(xiàn)高并發(fā)推理;另一方面對需要量化的中間層(inter_layers)進行了嚴格評估和篩選,確定了最佳的量化層。從而成功將模型精度量化至int4和int8級別,在模型精度幾乎無損的前提下,提升模型壓縮效果、增加推理吞吐量和降低計算成本,使其更易于部署到移動設備和邊緣設備上。
評測結果顯示,源2.0-M32量化版在多個業(yè)界主流的評測任務中性能表現(xiàn)突出,特別是在MATH(數(shù)學競賽)、ARC-C(科學推理)任務中,比肩擁有700億參數(shù)的LLaMA3大模型。
總之,源2.0-M32大模型量化版在保持推理性能的前提下,顯著降低了計算資源消耗和內存占用,其采用的GPTQ量化方法通過精細調整,成功將模型適配至int4和int8精度級別。通過定制化算子優(yōu)化,源2.0-M32量化版實現(xiàn)了模型結構的深度適配和性能的顯著提升,確保在不同硬件和軟件環(huán)境中均能高效運行。未來,隨著量化技術的進一步優(yōu)化和應用場景的拓展,源2.0-M32量化版有望在移動設備和邊緣計算等領域發(fā)揮更廣泛的作用,為用戶提供更高效的智能服務。
相關文章
- Soul全雙工語音大模型升級 迭代人機交互體驗感
- 模型選型專題系列 | 業(yè)界首個!元景MaaS平臺上線《大模型選型說明書》
- 獲央視點贊 深蘭科技AI醫(yī)療大模型落地打浦橋街道社區(qū)服務中心
- 新達內與百度智能云達成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 斑馬AI大模型:為每個孩子提供專屬學習方案
- 打造廣東首個地方文獻專題處理AI大模型,南沙區(qū)圖書館“阿貝數(shù)字人”項目重磅上線!
- 商湯大裝置躋身中國大模型平臺市場頭部廠商,萬象平臺加速AI落地“最后一公里”
- DFRobot 亮相貿澤電子 elexcon 2025 展臺,展示與Qwen3 大模型融合的AI 應用
- 曠視趙康:做大模型的“煉金術士”,讓AI在千行百業(yè)中兌現(xiàn)價值
- 云軸科技ZStack入選IDC大模型推理算力市場報告典型廠商
- 中國具身大模型初創(chuàng)公司眸深智能獲得IJCAI2025杰出論文獎,唯一獲獎大陸團隊!
- 心率血氧監(jiān)測新玩法:行空板M10融合AI大模型,讓數(shù)據會“說話”
- 特斯拉在中國市場放棄xAI的Grok大模型 選擇接入DeepSeek AI技術
- 昇騰助力中科大團隊實現(xiàn)MoE 稀疏大模型并行推理提速超30%
- 聚焦制造業(yè)智能化轉型 中國科學技術大學依托昇騰突破知識增強大模型關鍵技術
- 大模型推理成本居高不下,浪潮存儲幫你來突圍!
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據智能計算”論壇圓滿召開——攜產界實踐洞見共探智能時代數(shù)據支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉的光影 佳能EOS R50 V秋日氛圍感體驗
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機器人技能大賽在滬啟動,助推智能建造實戰(zhàn)人才培養(yǎng)
- 國產芯開行業(yè)新局,至像Z35國產芯系列新品打印機賦能中國打印
- 神眸榮獲快手“品牌標桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應用
人工智能產業(yè)
更多>>- 騰訊啟動AI應用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機場“AI繪空港”大賽完美收官,卓特視覺以技術賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉型“最優(yōu)解”
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據湖落地深勢科技,提升科研數(shù)據處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案