精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

Hot Chips:富士通展示百億億次級ARM超級計算機處理器A64FX

2018-08-24 10:01:55AI云資訊772

富士通公布了自主研發(fā)高性能基于ARM的處理器藍圖,這個名為A64FX的處理器是富士通Post-K超級計算機的“大腦”。

本周二在美國硅谷舉行的Hot Chips大會上展出。Post-K是一個1000 petaflops的性能怪獸,將取代日本基于SPARC64的K超級計算機。Post-K將于2021年上線,剛剛完成一輪試驗,證明了處理器的性能——至少在某種程度上說。

Post-K有望成為已經公布的、全球最快的超級計算機,屆時它完全運轉起來的功耗在30到40MW時。目前最快的超級計算機是美國的Summit超級計算機,該機器采用IBM POWER9和Nvidia Volta GV100處理器以及Mellanox網絡設備,最大功率為188 petaflops,功耗為8.8MW。

至關重要的是,Post-K將成為一個百億億次級的、兼容ARM的超級計算機,這對CPU架構來說是一個重要的里程碑,目前CPU幾乎用于每個人的手機、硬盤、智能卡和其他嵌入式電子產品中,并且有著駕馭筆記本電腦和服務器的夢想。

那富士通設計的超級計算機ARM處理器是什么樣的?以下是我們在Hot Chips工程大會上從富士通Toshio Yoshida那里了解到的:A64FX擁有88億個7納米FinFET晶體管,封裝有594個引腳、48個CPU核心和4個管理核心。每個芯片總共有32GB的高帶寬內存(HBM2)、16個PCIe 3.0通道和1024GB/s總內存帶寬,在性能方面至少達到2.7 teraflops。

52個CPU核心被分為有12個主核心外加1個管理核心的4個集群,每個集群有8GB HBM2,額定值為256GB/s,以及8MB的共享L2緩存。集群和整個芯片之間存在緩存一致性。

這些芯片是通過富士通第二代Tofu網狀圓環(huán)網絡相互連接的,這種互連方式可以通過10個端口將數據移入和移出每個處理器芯片,每個端口有兩個通道,每個通道最大速率為28Gbps。

A64FX的緩存層次結構和速度,每個集群有12個計算核心和1個管理核心,4個集群到1個芯片。來源:富士通

CPU核心只支持64位(沒有32位模式),采用Armv8.2-A指令集,支持ARM的512位寬SIMD SVE,意味著芯片可以在硬件中處理矢量和矩陣計算,這對于超級計算機和機器學習應用來說是必須的。此外它還支持16位和8位整數數學,以及通常的浮點精度(FP16、32和64),對AI推理代碼很有用處。

我們得知,A64FX是一種超標量無序執(zhí)行的“怪獸”,也是第一款Armv8.2-A設計。完成32位和64位Arm組裝編程的人會知道,該架構具有固定寬度指令,通常每個指令一個操作,是經典的RISC思想學派。有趣的是,通過實施SVE,A64FX為四操作數融合乘法加法指令(FMA4)提供了一個指令前綴——這是一個非常有用的操作——多少讓我們想起了x86指令前綴。

要執(zhí)行計算r0 = r3 + r1 * r2,你要使用兩個指令,這兩個指令在預解碼階段合并為一個,盡管開始是兩個指令,但仍在一個步驟中執(zhí)行。這些是:

每個CPU核心的執(zhí)行單元可以同時處理2個512位SIMD操作。輸入數據打包成512位,并一次性進行處理——就像英特爾在其服務器部件上的AVX512操作一樣。因此,你可以輸入4個8位值,4個相應的8位系數或權重,它們相乘得到四4個答案,然后添加到32位偏移量,并寫入寄存器。

富士通認為,當做8位整數運算時A64FX可以達到21.6 TOPS(萬億或每秒萬億次運算); 做16位整數運算時可以達到10.8 TOPS;做32位整數運算時可以達到5.4 TOPS;64位時是2.7 TOPS,全部都是執(zhí)行整數SIMD。據稱,A64FX至少比富士通之前的超級計算機處理器——SPARC64 XIfx——在運行高性能計算和人工智能負載時快2.5倍。

相比之下,Nvidia用于服務器的P4和P40加速器時鐘頻率為22和47 TOPS(8位整數)。

L1緩存有一個組合的收集機制,可以獲取數組中的連續(xù)元素并將其復制到寄存器中。因此舉例來說,你可以使用它將存儲器中的8個字節(jié)轉換為一個64位寄存器,每個字節(jié)插入寄存器中自己的字節(jié)位置。指令引擎以230GB/s的速度讀取每核四路64KB L1數據高速緩存,并以115GB/s的速度寫回。L2共享緩存以115G/s的速度提供數據,并以57GB/s的速度接收數據。

A64FX的管道階段。來源:富士通

每個芯片的功耗使用請款是以每毫秒為單位進行監(jiān)控和控制的,并且每個核心的速率低至納秒級。富士通稱,A64FX具有大型機級的彈性,所有緩存都有ECC或重復數據刪除功能,執(zhí)行單元內的奇偶校驗,如果檢測到出錯,就會重試指令,Tofu互連鏈路上的錯誤恢復以及針對芯片的總共128000個錯誤檢查器。

整個shebang字符串行運行Linux,基于Lustre的分布式文件系統(tǒng)和非易失性存儲器用于加速文件輸入輸出。工具鏈支持C、C ++和Fortran編譯器、MPI、OpenMP、調試器以及其他工具和語言。

你會注意到沒有第三方加速器:它是純粹的ARM,這就是富士通的方式,目的是設計一個運行超級計算機類型應用(模擬、科學實驗分析、機器學習和其他數字運算)的芯片,具有比通用CPU更高的每瓦性能。

遺憾的是,Yoshida并不想談論時鐘頻率和單個芯片的功耗。該機器距離完成還有幾年的時間,所有規(guī)格和實施細節(jié)尚未確定或者透露。“我們將繼續(xù)開發(fā)ARM處理器,”他這樣表示。

相關文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產業(yè)

更多>>

人工智能技術

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews