史上最大芯片誕生!1.2萬億晶體管超級巨無霸,專為AI設(shè)計(jì)
2019-08-20 15:13:20AI云資訊1294
面積42225 平方毫米, 擁有1.2 萬億個晶體管,400000 個核心,片上內(nèi)存18 Gigabytes,內(nèi)存帶寬19 PByte/s,fabric帶寬100 Pbit/s。
這就是有史以來最大的芯片——Cerebras Wafer Scale Engine!

這顆巨型芯片由Cerebras Systems公司推出,芯片發(fā)布后,三位中國芯片領(lǐng)域?qū)<以谂笥讶α⒓醋龀鲈u價:
芯片專家唐杉:“膜拜一下Cerebras的巨型芯片,每邊大約9英寸,22cm。我記得我之前寫文章還畫過一個類似的對比圖。[機(jī)智]Wired的文章,看來Cerebras要走到前臺了?!?
深鑒科技聯(lián)合創(chuàng)始人姚頌:“Cerebras的Wafer-scale chip確實(shí)壯觀,有一種獨(dú)特的美感,就好像看到大炮巨艦的那種壯麗之情。希望Andrew Feldman一切順利?!?
獵戶星空首席戰(zhàn)略官王兵:“一萬兩千億晶體管的巨大芯片,300mm wafer能做出的最大芯片,挑戰(zhàn)芯片行業(yè)極限之作。如果能成功必然會顛覆整個AI芯片行業(yè)。不過即便是用了多種錯誤冗余技術(shù),量產(chǎn)良品率還將會是個巨大的挑戰(zhàn)。”

Cerebras Wafer Scale Engine擁有1.2萬億個晶體管。1971年英特爾首款4004處理器的晶體管數(shù)量為2,300個,最近的AMD處理器擁有320億個晶體管。
大多數(shù)芯片實(shí)際上是在12英寸硅晶片上創(chuàng)建的芯片集合,并在芯片工廠中批量生產(chǎn)。但Cerebras Systems芯片是在單個晶圓上互連的單芯片。這些互連設(shè)計(jì)使這些芯片全部保持高速運(yùn)行狀態(tài),萬億個晶體管可以全部一起工作。
通過這種方式,Cerebras Wafer Scale Engine成為有史以來最大的處理器,它專門設(shè)計(jì)用于處理AI應(yīng)用問題。該公司在本周在斯坦福大學(xué)舉行的Hot Chips會議上討論這款“世界最大”的芯片的設(shè)計(jì)。
此前,三星實(shí)際上已制造出了一個閃存芯片eUFS,擁有2萬億個晶體管。但Cerebras芯片專為流程加工而設(shè)計(jì),擁有400,000個核心,芯片面積42,225平方毫米。它比最大的Nvidia GPU大56.7倍,后者尺寸為815平方毫米,含211億個晶體管。

史上最大芯片跟棒球的對比
WSE還包含3,000倍的高速片上存儲器,并且具有10,000倍的存儲器帶寬。
該芯片來自Andrew Feldman領(lǐng)導(dǎo)的團(tuán)隊(duì),后者曾創(chuàng)建微型服務(wù)器公司SeaMicro,并以3.34億美元的價格賣給了AMD。Cerebras Systems的聯(lián)合創(chuàng)始人兼首席硬件架構(gòu)師Sean Lie將將在Hot Chips大會上展示Cerebras Wafer Scale Engine。這家位于加州Los Altos的公司擁有194名員工。

Cerebras CEO Fieldman與 SeaMicro box最初版本合影
芯片尺寸在AI任務(wù)中非常重要,因?yàn)榇蟪叽缧酒梢愿斓靥幚硇畔?,在更短的時間內(nèi)給出答案。這能夠減少“訓(xùn)練時間”,使研究人員能夠測試更多想法,使用更多數(shù)據(jù)并解決新問題。谷歌、Facebook、OpenAI、騰訊、百度和許多企業(yè)都認(rèn)為,今天制約AI發(fā)展的基本限制是訓(xùn)練模型需要的時間太長。因此,縮短訓(xùn)練時間有望消除整個行業(yè)取得進(jìn)步的主要瓶頸。
當(dāng)然,芯片制造商通常不會制造這么大的芯片。在單個晶片的制造過程中通常會出現(xiàn)一些雜質(zhì)。如果一種雜質(zhì)會導(dǎo)致一塊芯片發(fā)生故障,那么晶圓上的多種雜質(zhì)就會導(dǎo)致多塊芯片出問題。實(shí)際制造出的芯片產(chǎn)量僅占實(shí)際工作芯片的一小部分。如果晶圓上只有一個芯片,它有雜質(zhì)的幾率是100%,雜質(zhì)會使芯片失效。但Cerebras設(shè)計(jì)的芯片留有冗余,一種雜質(zhì)不會導(dǎo)致整個芯片都不能用。
單晶圓提供超級計(jì)算機(jī)級的計(jì)算能力
“Cerebras WSE”專為人工智能設(shè)計(jì)而設(shè)計(jì),其中包含了不少基礎(chǔ)創(chuàng)新,解決了限制芯片尺寸的長達(dá)數(shù)十年的技術(shù)挑戰(zhàn) - 如良品率,功率傳送、封裝等,推動了最先進(jìn)技術(shù)的發(fā)展。和包裝,每個架構(gòu)決策都是為了優(yōu)化AI工作的性能。結(jié)果是,Cerebras WSE根據(jù)工作量提供了數(shù)百或數(shù)千倍的現(xiàn)有解決方案的性能,只需很小的功耗和空間?!盋erebras Systems首席執(zhí)行官的Fieldman說。
通過加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練的所有元素來實(shí)現(xiàn)這些性能提升。神經(jīng)網(wǎng)絡(luò)是一種多級計(jì)算反饋回路。輸入在循環(huán)中移動速度越快,循環(huán)學(xué)習(xí)的速度越快,即訓(xùn)練時間越短??梢酝ㄟ^加速循環(huán)內(nèi)的計(jì)算和通信來加速輸入的循環(huán)速度。
Cerebras WSE芯片面積比目前最大的GPU大56.7倍, 并提供更多核心進(jìn)行計(jì)算,有更多核心靠近內(nèi)存,因此內(nèi)核可以高效運(yùn)行。由于這些大量的內(nèi)核和內(nèi)存位于單個芯片上,因此所有通信都在芯片上進(jìn)行,通信帶寬高、延遲低,因此核心組可以以最高效率進(jìn)行協(xié)作。

Cerebras WSE中的46,225平方毫米的芯片面積上包含40萬個AI優(yōu)化核心,無緩存、無開銷的計(jì)算內(nèi)核,以及和18千兆字節(jié)的本地化分布式超高速SRAM內(nèi)存。內(nèi)存帶寬為每秒9 PB。這些核心通過細(xì)粒度、全硬件、片上網(wǎng)狀連接通信網(wǎng)絡(luò)連接在一起,可提供每秒100 petabits的總帶寬。更多核心、更多本地內(nèi)存和低延遲高帶寬結(jié)構(gòu),共同構(gòu)成了面向AI加速任務(wù)的最佳架構(gòu)。
“雖然AI在一般意義上被使用,但沒有兩個數(shù)據(jù)集或兩個AI任務(wù)是相同的。新的AI工作負(fù)載不斷涌現(xiàn),數(shù)據(jù)集也在不斷變大,”Tirias Research首席分析師兼創(chuàng)始人Jim McGregor在一份聲明中表示。
“隨著AI的發(fā)展,芯片和平臺解決方案也在不斷發(fā)展。Cerebras WSE是半導(dǎo)體和平臺設(shè)計(jì)方面的一項(xiàng)驚人的工程成就,它在單個晶圓級的解決方案中提供了超級計(jì)算機(jī)級的計(jì)算能力、高性能內(nèi)存和帶寬?!?
Cerebras 表示,如果沒有多年來與臺積電(TSMC)的密切合作,他們不可能取得這個創(chuàng)紀(jì)錄的成就。臺積電是全球最大的半導(dǎo)體代工廠,在先進(jìn)工藝技術(shù)方面處于領(lǐng)先地位。WSE芯片由臺積電采用先進(jìn)的16nm制程技術(shù)制造。
400000個AI優(yōu)化的內(nèi)核
WSE包含40萬個AI優(yōu)化的計(jì)算內(nèi)核(compute cores)。這種計(jì)算內(nèi)核被稱為稀疏線性代數(shù)核(Sparse Linear Algebra Cores, SLAC),具有靈活性、可編程性,并針對支持所有神經(jīng)網(wǎng)絡(luò)計(jì)算的稀疏線性代數(shù)進(jìn)行了優(yōu)化。SLAC的可編程性保證了內(nèi)核能夠在不斷變化的機(jī)器學(xué)習(xí)領(lǐng)域運(yùn)行所有的神經(jīng)網(wǎng)絡(luò)算法。
由于稀疏線性代數(shù)內(nèi)核是為神經(jīng)網(wǎng)絡(luò)計(jì)算進(jìn)行優(yōu)化的,因此它們可實(shí)現(xiàn)業(yè)界最佳利用率——通常是GPU的3倍或4倍。此外,WSE核心還包括Cerebras發(fā)明的稀疏捕獲技術(shù),以加速在稀疏工作負(fù)載(包含0的工作負(fù)載)上的計(jì)算性能,比如深度學(xué)習(xí)。
零在深度學(xué)習(xí)計(jì)算中很普遍。通常,要相乘的向量和矩陣中的大多數(shù)元素都是0。然而,乘以0是浪費(fèi)硅,功率和時間的行為,因?yàn)闆]有新的信息。
因?yàn)镚PU和TPU是密集的執(zhí)行引擎——引擎的設(shè)計(jì)永遠(yuǎn)不會遇到0——所以它們即使在0時也會乘以每一個元素。當(dāng)50-98%的數(shù)據(jù)為零時,如深度學(xué)習(xí)中經(jīng)常出現(xiàn)的情況一樣,大多數(shù)乘法都被浪費(fèi)了。由于Cerebras的稀疏線性代數(shù)核心永遠(yuǎn)不會乘以零,所有的零數(shù)據(jù)都被過濾掉,可以在硬件中跳過,從而可以在其位置上完成有用的工作。
比GPU大3000倍的片上內(nèi)存
內(nèi)存是每一種計(jì)算機(jī)體系結(jié)構(gòu)的關(guān)鍵組成部分。靠近計(jì)算的內(nèi)存意味著更快的計(jì)算、更低的延遲和更好的數(shù)據(jù)移動效率。高性能的深度學(xué)習(xí)需要大量的計(jì)算和頻繁的數(shù)據(jù)訪問。這就要求計(jì)算核心和內(nèi)存之間要非常接近,而在GPU中卻不是這樣,GPU中絕大多數(shù)內(nèi)存都很慢,而且離計(jì)算核心很遠(yuǎn)。
Cerebras Wafer Scale Engine包含了比迄今為止任何芯片都要多的內(nèi)核和本地內(nèi)存,并且在一個時鐘周期內(nèi)擁有18 GB的片上內(nèi)存。WSE上的核心本地內(nèi)存的集合提供了每秒9 PB的內(nèi)存帶寬——比最好的GPU大3000倍的片上內(nèi)存和10000倍的內(nèi)存帶寬。
低延遲、高帶寬的獨(dú)特通信結(jié)構(gòu)
Swarm通信結(jié)構(gòu)是WSE上使用的處理器間通信結(jié)構(gòu),它以傳統(tǒng)通信技術(shù)功耗的一小部分實(shí)現(xiàn)了帶寬的突破和低延遲。Swarm提供了一個低延遲、高帶寬的2D網(wǎng)格,它將WSE上的所有400,000個核連接起來,每秒的帶寬總計(jì)達(dá)100 petabits。
路由、可靠的消息傳遞和同步都在硬件中處理。消息會自動激活每個到達(dá)消息的應(yīng)用程序處理程序。Swarm為每個神經(jīng)網(wǎng)絡(luò)提供了一個獨(dú)特的、優(yōu)化的通信路徑。軟件根據(jù)正在運(yùn)行的特定用戶定義的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),配置通過400,000個核心的最優(yōu)通信路徑,以連接處理器。
典型的消息遍歷一個具有納秒延遲的硬件鏈接。一個Cerebras WSE的總帶寬是每秒100 PB。不需要TCP/IP和MPI等通信軟件,因此可以避免性能損失。這種結(jié)構(gòu)的通信能量成本遠(yuǎn)低于遠(yuǎn)低于每比特 1 焦耳,比GPU低了近兩個數(shù)量級。結(jié)合了巨大的帶寬和極低的延遲,Swarm通信結(jié)構(gòu)使 Cerebras WSE比任何當(dāng)前可用的解決方案學(xué)習(xí)得更快。
相關(guān)文章
- 英偉達(dá)發(fā)布人形機(jī)器人芯片Jetson Thor,實(shí)現(xiàn)物理AI領(lǐng)域重大突破
- 蘋果首款折疊屏iPhone配四攝像頭和自研C2基帶芯片,并在設(shè)計(jì)上進(jìn)行重大創(chuàng)新
- 《2025存力發(fā)展報(bào)告》:我國存力規(guī)模達(dá)1680EB,國產(chǎn)存儲介質(zhì)、芯片、系統(tǒng)實(shí)現(xiàn)三級突破
- 云知聲智能語音芯片榮膺2025物聯(lián)網(wǎng)大會特色成果,以端側(cè)智能引領(lǐng)AIoT產(chǎn)業(yè)邁入“芯”紀(jì)元
- 信銳極智網(wǎng)絡(luò):獨(dú)立AI芯片加持,引領(lǐng)交換機(jī)智能運(yùn)維新范式!
- 突發(fā)!網(wǎng)傳聯(lián)發(fā)科天璣9500芯片AI算力翻倍
- 英特爾公開演示18A制程已適配非x86架構(gòu)SoC芯片,開辟全新市場前景
- 破局電網(wǎng)結(jié)冰監(jiān)測“芯”瓶頸!金天弘科技全球首創(chuàng)MEMS結(jié)冰傳感芯片重磅上市成功應(yīng)用
- 特朗普與英偉達(dá)達(dá)成協(xié)議,僅向我國出售性能降級版AI芯片,并在營收額中抽成15%
- 三星Galaxy S26 Ultra將于2026年迎來性能飛躍:搭載美光超高速LPDDR5X內(nèi)存與驍龍8 Elite 2芯片組
- “芯片+場景”雙輪驅(qū)動,云天勵飛沖刺H股加速技術(shù)商業(yè)化落地
- 蘋果斥資6000億美元實(shí)施美國制造計(jì)劃,定制芯片全流程生產(chǎn)都在本土完成
- 國內(nèi)首證!馳芯半導(dǎo)體CX500車規(guī)級UWB SoC芯片通過FiRa Core 3.0認(rèn)證
- 云天勵飛擬赴港上市:中國AI推理芯片獨(dú)角獸
- 深度解讀!格力車規(guī)級芯片斬獲三項(xiàng)國際認(rèn)證,憑啥這么牛?
- WAIC 2025|芯馳科技分享AI座艙芯片“最優(yōu)解”
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會強(qiáng)勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運(yùn)載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實(shí)現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案