Hot Chips:富士通展示百億億次級ARM超級計算機處理器A64FX
2018-08-24 10:01:55AI云資訊772
富士通公布了自主研發(fā)高性能基于ARM的處理器藍圖,這個名為A64FX的處理器是富士通Post-K超級計算機的“大腦”。
本周二在美國硅谷舉行的Hot Chips大會上展出。Post-K是一個1000 petaflops的性能怪獸,將取代日本基于SPARC64的K超級計算機。Post-K將于2021年上線,剛剛完成一輪試驗,證明了處理器的性能——至少在某種程度上說。
Post-K有望成為已經公布的、全球最快的超級計算機,屆時它完全運轉起來的功耗在30到40MW時。目前最快的超級計算機是美國的Summit超級計算機,該機器采用IBM POWER9和Nvidia Volta GV100處理器以及Mellanox網絡設備,最大功率為188 petaflops,功耗為8.8MW。
至關重要的是,Post-K將成為一個百億億次級的、兼容ARM的超級計算機,這對CPU架構來說是一個重要的里程碑,目前CPU幾乎用于每個人的手機、硬盤、智能卡和其他嵌入式電子產品中,并且有著駕馭筆記本電腦和服務器的夢想。
那富士通設計的超級計算機ARM處理器是什么樣的?以下是我們在Hot Chips工程大會上從富士通Toshio Yoshida那里了解到的:A64FX擁有88億個7納米FinFET晶體管,封裝有594個引腳、48個CPU核心和4個管理核心。每個芯片總共有32GB的高帶寬內存(HBM2)、16個PCIe 3.0通道和1024GB/s總內存帶寬,在性能方面至少達到2.7 teraflops。
52個CPU核心被分為有12個主核心外加1個管理核心的4個集群,每個集群有8GB HBM2,額定值為256GB/s,以及8MB的共享L2緩存。集群和整個芯片之間存在緩存一致性。
這些芯片是通過富士通第二代Tofu網狀圓環(huán)網絡相互連接的,這種互連方式可以通過10個端口將數據移入和移出每個處理器芯片,每個端口有兩個通道,每個通道最大速率為28Gbps。
A64FX的緩存層次結構和速度,每個集群有12個計算核心和1個管理核心,4個集群到1個芯片。來源:富士通
CPU核心只支持64位(沒有32位模式),采用Armv8.2-A指令集,支持ARM的512位寬SIMD SVE,意味著芯片可以在硬件中處理矢量和矩陣計算,這對于超級計算機和機器學習應用來說是必須的。此外它還支持16位和8位整數數學,以及通常的浮點精度(FP16、32和64),對AI推理代碼很有用處。
我們得知,A64FX是一種超標量無序執(zhí)行的“怪獸”,也是第一款Armv8.2-A設計。完成32位和64位Arm組裝編程的人會知道,該架構具有固定寬度指令,通常每個指令一個操作,是經典的RISC思想學派。有趣的是,通過實施SVE,A64FX為四操作數融合乘法加法指令(FMA4)提供了一個指令前綴——這是一個非常有用的操作——多少讓我們想起了x86指令前綴。
要執(zhí)行計算r0 = r3 + r1 * r2,你要使用兩個指令,這兩個指令在預解碼階段合并為一個,盡管開始是兩個指令,但仍在一個步驟中執(zhí)行。這些是:
每個CPU核心的執(zhí)行單元可以同時處理2個512位SIMD操作。輸入數據打包成512位,并一次性進行處理——就像英特爾在其服務器部件上的AVX512操作一樣。因此,你可以輸入4個8位值,4個相應的8位系數或權重,它們相乘得到四4個答案,然后添加到32位偏移量,并寫入寄存器。
富士通認為,當做8位整數運算時A64FX可以達到21.6 TOPS(萬億或每秒萬億次運算); 做16位整數運算時可以達到10.8 TOPS;做32位整數運算時可以達到5.4 TOPS;64位時是2.7 TOPS,全部都是執(zhí)行整數SIMD。據稱,A64FX至少比富士通之前的超級計算機處理器——SPARC64 XIfx——在運行高性能計算和人工智能負載時快2.5倍。
相比之下,Nvidia用于服務器的P4和P40加速器時鐘頻率為22和47 TOPS(8位整數)。
L1緩存有一個組合的收集機制,可以獲取數組中的連續(xù)元素并將其復制到寄存器中。因此舉例來說,你可以使用它將存儲器中的8個字節(jié)轉換為一個64位寄存器,每個字節(jié)插入寄存器中自己的字節(jié)位置。指令引擎以230GB/s的速度讀取每核四路64KB L1數據高速緩存,并以115GB/s的速度寫回。L2共享緩存以115G/s的速度提供數據,并以57GB/s的速度接收數據。
A64FX的管道階段。來源:富士通
每個芯片的功耗使用請款是以每毫秒為單位進行監(jiān)控和控制的,并且每個核心的速率低至納秒級。富士通稱,A64FX具有大型機級的彈性,所有緩存都有ECC或重復數據刪除功能,執(zhí)行單元內的奇偶校驗,如果檢測到出錯,就會重試指令,Tofu互連鏈路上的錯誤恢復以及針對芯片的總共128000個錯誤檢查器。
整個shebang字符串行運行Linux,基于Lustre的分布式文件系統(tǒng)和非易失性存儲器用于加速文件輸入輸出。工具鏈支持C、C ++和Fortran編譯器、MPI、OpenMP、調試器以及其他工具和語言。
你會注意到沒有第三方加速器:它是純粹的ARM,這就是富士通的方式,目的是設計一個運行超級計算機類型應用(模擬、科學實驗分析、機器學習和其他數字運算)的芯片,具有比通用CPU更高的每瓦性能。
遺憾的是,Yoshida并不想談論時鐘頻率和單個芯片的功耗。該機器距離完成還有幾年的時間,所有規(guī)格和實施細節(jié)尚未確定或者透露。“我們將繼續(xù)開發(fā)ARM處理器,”他這樣表示。
相關文章
- 安芯網盾再次榮獲“網絡安全初創(chuàng)企業(yè)HOT50(2022版)”
- 星際新聞重磅消息!MOMO Hotel即將開業(yè),新管家摩伯特先生首次亮相
- 燧原科技亮相Hot Chips大會,詳解邃思芯片架構
- 共創(chuàng)信創(chuàng)生態(tài) 優(yōu)刻得UCloudStack與熱璞HotDB Cloud完成兼容互認
- Sense Photonics為自動駕駛汽車推出首款模塊化FLASH激光雷達
- 榮耀9X系列方舟之旅起航 8月10日將啟動方舟編譯器HOTA升級
- 在蓋茨的BEV基金的支持下,Alphabet拆分moonshot項目Malta獨立發(fā)展
- Adobe:完整版Photoshop軟件將于明年登陸iPad
- 2018北京設計周HOTOB(胡圖兔)亮相 設計行業(yè)進入人工智能時代
- Hot Chips:富士通展示百億億次級ARM超級計算機處理器A64FX
- Comma.ai再發(fā)聲:神奇黑客George Hotz要用1000美元改裝一輛自動駕駛汽車
- Adobe將于2019 發(fā)布完整版 iPad Photoshop
人工智能企業(yè)
更多>>人工智能硬件
更多>>人工智能產業(yè)
更多>>- 騰訊啟動AI應用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機場“AI繪空港”大賽完美收官,卓特視覺以技術賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產業(yè)鏈展主題發(fā)布
- 北京數基建發(fā)布“知行IntAct”混合智能體產品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數據價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉型“最優(yōu)解”
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數據湖落地深勢科技,提升科研數據處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案