北大團隊提出2比特復(fù)數(shù)模型iFairy{±1, ±i},精度反超量化前,可手機部署
2025-08-15 15:02:22AI云資訊2979
version 8.14
摘要:為破解大模型部署與推理成本高昂的困境,北京大學(xué)楊仝老師團隊首次提出名為iFairy的超低比特量化方案。該方案創(chuàng)新性地利用復(fù)數(shù){±1, ±i}對模型權(quán)重進行2-bit量化,在實現(xiàn)1/8極致壓縮與“無乘法”推理加速的同時,語言建模能力和下游任務(wù)表現(xiàn)甚至反超了其全精度的LLaMA基座模型。
當下,大語言模型(LLM)的研究熱潮席卷全球,技術(shù)迭代日新月異。然而,在這片繁榮之下,一個嚴峻的現(xiàn)實不容忽視:LLM在真實世界中產(chǎn)生的商業(yè)價值,很大程度上仍無法覆蓋其高昂的訓(xùn)練與推理成本。
究其根源,大模型走向產(chǎn)業(yè)落地的道路上,橫亙著兩大“攔路虎”:空間瓶頸和時間瓶頸。
為了追求更高的模型性能,業(yè)界普遍的策略是不斷堆疊參數(shù)量,這使得模型部署成本高昂。
同時,龐大的參數(shù)量帶來了計算量的激增,盡管學(xué)界和業(yè)界已涌現(xiàn)出如gpt-oss的MXFP4訓(xùn)練等優(yōu)秀的量化方案,但其核心計算邏輯依然沒有消除對硬件資源消耗巨大的“乘法”運算的依賴,推理延遲沒有實現(xiàn)根本性的降低。
能否同時攻克這兩大瓶頸,實現(xiàn)模型的輕量化和推理加速,已成為推動大模型發(fā)展從“技術(shù)奇觀”邁向“生產(chǎn)力工具”新階段的關(guān)鍵。
為解決這一難題,北京大學(xué)楊仝老師團隊在一篇名為“iFairy: the First 2-bit Complex LLM with All Parameters in {±1,±i}”的論文中,提出了一個腦洞大開的方案:跳出實數(shù)軸的束縛,進入復(fù)數(shù)平面!
這看似簡單的維度提升,卻蘊含著破解瓶頸的深刻智慧。
一、空間魔法:極致壓縮,體積僅為1/8
在“空間”上,iFairy實現(xiàn)了極致的壓縮。
傳統(tǒng)的全精度(FP16)權(quán)重需要16比特,而iFairy方案僅用2比特,就完成了對一個權(quán)重信息的編碼。
這意味著,相較于流行的FP16模型,其模型體積可以直接壓縮至原來的1/8。這種“史詩級”的壓縮率,為大模型在手機、汽車等邊緣設(shè)備上的部署掃清了最大的存儲障礙。
二、時間魔法:“無乘法”計算的革命
在“時間”上,iFairy實現(xiàn)了“無乘法”計算的革命。這個魔法是如何實現(xiàn)的呢?
1. PhaseQuant算法的神來之筆
這一切,都源于團隊提出的全新量化算法PhaseQuant。它不再將權(quán)重映射到實數(shù)軸上的點,而是基于參數(shù)的相位將其映射到復(fù)平面上的四個單位根{±1, ±i}。
這一操作堪稱神來之筆,一舉多得:
信息密度拉滿:用{±1, ±i} 四個值,徹底利用了2-bit的全部信息容量,信息熵從傳統(tǒng)三元量化(如BitNet b1.58)的log?(3)≈1.58-bit,提升到滿格的log?(4)=2-bit。
優(yōu)雅的對稱性:這四個點在復(fù)平面上關(guān)于原點中心對稱,保持了模型訓(xùn)練所需的良好性質(zhì)。
隱含的稀疏性:每個量化后的復(fù)數(shù)權(quán)重,其實部或虛部必有一個為零,這在高維度上保留了稀疏性的優(yōu)勢。
2. 驚艷的“無乘法”運算
最令人拍案叫絕的是,引入復(fù)數(shù),計算仍然高效!一個標準的復(fù)數(shù)乘法 (a+ib)(c+id) 需要4次實數(shù)乘法和2次加法,計算量不小。
但在iFairy模型中,當一個復(fù)數(shù)激活值與量化后的權(quán)重 {±1, ±i} 相乘時,運算發(fā)生了奇妙的“退化”:所有乘法都消失了。
看!整個模型中最核心、最龐大的矩陣乘法(GEMM),被徹底重構(gòu)了!原本昂貴的浮點乘法運算,被完全替換為硬件成本幾乎為零的加法、減法和數(shù)據(jù)交換(shuffle)操作。這從根本上消除了計算瓶頸,為實現(xiàn)數(shù)量級的推理加速提供了可能。
三、架構(gòu)革新:一個全面“復(fù)數(shù)化”的Transformer
為了讓這個魔法完美落地,研究團隊還將整個Transformer架構(gòu)都進行了“復(fù)數(shù)化”改造。
復(fù)數(shù)注意力機制:傳統(tǒng)注意力計算Q和K的點積,這里則巧妙地使用了Hermitian內(nèi)積的實部作為相似度分數(shù),既利用了所有復(fù)數(shù)信息,又自然地得到了實數(shù)分數(shù)用于Softmax。
復(fù)數(shù)旋轉(zhuǎn)位置編碼(RoPE):在復(fù)數(shù)域,位置編碼的旋轉(zhuǎn)操作變得異常簡潔和統(tǒng)一,一個簡單的復(fù)數(shù)乘法即可實現(xiàn)。
四、驚艷成果:PPL降低10%,性能反超全精度!
理論如此優(yōu)雅,實踐效果如何呢?結(jié)果同樣令人矚目。
iFairy 不僅沒有出現(xiàn)超低比特量化常見的性能懸崖,反而實現(xiàn)了驚人的性能反超。
在LLM的語言建模能力方面,模型的困惑度(PPL)越低,代表模型對文本的理解和預(yù)測能力越強。在對PPL的測試中,基于相同數(shù)據(jù)集訓(xùn)練(注:為保證對比的嚴謹性,所有對比模型的訓(xùn)練數(shù)據(jù)均保持一致,具體信息可參見論文)的2-bit的iFairy 模型取得了比全精度(FP16)模型更低的困惑度(PPL),降幅高達 10%。
而在下游任務(wù)評測方面,iFairy 模型更是在多個任務(wù)的評分反超了全精度的Llama基座模型。
這意味著,一個體積只有原來1/8、計算幾乎“零”乘法的模型,其能力反而更強了。這徹底顛覆了我們的傳統(tǒng)認知。
對量化后權(quán)重的分析還發(fā)現(xiàn),模型在訓(xùn)練后,這四個復(fù)數(shù)值 {±1, ±i} 的分布非常均勻,證明模型確實學(xué)會了充分利用這套全新的“編碼系統(tǒng)”。
總而言之,這項工作開創(chuàng)性地將復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)的思想與超低比特量化相結(jié)合,通過利用“相位”這一被忽略的信息維度,在不增加任何存儲成本的前提下,顯著提升了模型的表達能力和最終性能,真正實現(xiàn)了“魚與熊掌兼得”。
它為設(shè)計下一代超高效、高性能的大語言模型,打開了一扇全新的大門?;蛟S,我們離在普通手機上流暢運行GPT-5級別的模型,又近了一步。 相關(guān)論文、訓(xùn)練代碼、模型權(quán)重與實驗?zāi)_本已全部開源,配套提供從訓(xùn)練、評測到可復(fù)現(xiàn)實驗的完整流程,人人皆可復(fù)現(xiàn)訓(xùn)練。
相關(guān)文章
- 國慶出國游,時空壺新T1翻譯機,首個端側(cè)模型突破助力跨語言交流
- 快手發(fā)布多模態(tài)大模型Keye-VL-1.5 8B性能領(lǐng)先、視頻理解能力更強
- 攻克“全球化難題”!元戎啟行用VLA模型破解歐洲復(fù)雜路況
- 皓麗全球首款四攝AI會議平板:AI全視之眼 + AI智會大模型雙加持
- 當翻譯失去網(wǎng)絡(luò),時空壺新T1翻譯機開創(chuàng)首個離線模型賦能全球溝通新體驗
- 聯(lián)通數(shù)智“模型、數(shù)據(jù)、安全”三位一體,精彩亮相2025智博會
- Soul全雙工語音大模型升級 迭代人機交互體驗感
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 模型選型專題系列 | 業(yè)界首個!元景MaaS平臺上線《大模型選型說明書》
- 模型選型專題系列 | “一句話選模型”智能體,助你告別模型選型困境
- 蘋果為Siri開發(fā)的AI搜索工具或?qū)⒗霉雀璧腉emini AI模型來匯總網(wǎng)絡(luò)信息
- 獲央視點贊 深蘭科技AI醫(yī)療大模型落地打浦橋街道社區(qū)服務(wù)中心
- 新達內(nèi)與百度智能云達成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案
- 知識圖譜人崗匹配模型為人力資源智能化轉(zhuǎn)型提供新引擎
- 打造廣東首個地方文獻專題處理AI大模型,南沙區(qū)圖書館“阿貝數(shù)字人”項目重磅上線!
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
- 筑牢安全芯基石,紫光同芯無線充電鑒權(quán)芯片T9系列亮相2025(秋季)亞洲充電展
- 中國移動將支持eSIM全系產(chǎn)品,釋放成長新動能
- 晟聯(lián)科:以高速互連接口IP方案賦能Scale-up 生態(tài)
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案