Cadence公布人工智能芯片Tensilica DNA 100,性能提升4.7倍,能耗比提升2.3倍
2018-09-25 19:18:52AI云資訊689
雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))了解到,Cadence于本周展示了從物聯(lián)網(wǎng)、移動、AR/VR到智能監(jiān)控和汽車應用等各個領域的廣泛性能需求,并公布了更多有望加速邊緣端神經(jīng)網(wǎng)絡推理的產(chǎn)品,并宣布推出一種新的專用“AI”IP,專注于滿足各種各樣需求的性能和擴展,擴展比以前更高,性能有望達到100 TMACs(萬億矩陣積累操作)。
Cadence表示,在汽車動力等應用中將擁有大量傳感器,包括攝像頭,激光雷達和超聲波等,對于推理性能的需求非常急迫。 標準DSP將處理信號處理的主要任務,但實際上對數(shù)據(jù)有意義的任務將被移交給神經(jīng)網(wǎng)絡加速器,例如處理感知和決策制定任務的DNA 100。
Cadence宣稱與具有類似尺寸的MAC引擎的競爭解決方案相比,DNA 100具有高達4.7倍的性能優(yōu)勢。Cadence通過它的稀疏計算架構(gòu)實現(xiàn)了這一點,這意味著它只計算非零激活和權(quán)重,并實現(xiàn)了比競爭對手更高的硬件MAC利用率。
“神經(jīng)網(wǎng)絡的特點是固有的權(quán)重和激活的稀疏性,這會導致其他處理器中的MAC通過加載和乘零而不必要地消耗性能。DNA 100處理器的專用硬件計算引擎消除了這兩個問題,允許利用這種稀疏性來提高效率和減少計算量。神經(jīng)網(wǎng)絡的再訓練有助于增加網(wǎng)絡的稀疏性,并通過DNA 100處理器的稀疏計算引擎實現(xiàn)最大性能。”
在架構(gòu)方面, DNA 100與其他推理加速器看起來很相似,其最重要的處理能力在于Cadence稱之為“可擴展稀疏計算引擎”的MAC引擎,它們處理卷積階段以及完全連接的分類層的任務。
MACs是本地的8位整數(shù),能夠在全吞吐量的量化模型上操作,但它也提供了半速率的16位整數(shù)和四分之一吞吐量的16位浮點操作。單個MAC引擎/稀疏計算引擎在256/512/1024 MAC中都是可伸縮的,之后IP可以通過添加更多引擎進行擴展,最多可達4個。這意味著最大配置的單個DNA 100硬件塊最多包含4096個MAC。
Cadence仍然非常清楚,有些應用場景或神經(jīng)網(wǎng)絡模型可能無法由固定函數(shù)IP處理,并且仍然提供了將DNA 100與現(xiàn)有DSP IP耦合的可能性。這兩種產(chǎn)品緊密耦合,DSP可以有效地處理更多特殊的的NN層,將內(nèi)核傳遞回DNA 100,從而使解決方案具有未來的可擴展性,并可擴展到客戶希望的定制層。
帶寬是神經(jīng)網(wǎng)絡推理硬件中的一個關(guān)鍵瓶頸,因此為了獲得最佳性能并且不受平臺限制,壓縮是必不可少的。DNA 100除了通過壓縮權(quán)重和激活來提供帶寬減少功能,在原始帶寬方面,IP還提供1到4個AXI 128或256位接口的非常寬的接口選項,這意味著在最寬的配置中最高可達1024位總線寬度。
要將IP擴展到4096MACs以上,只需將多個硬件塊并排放置到SoC上,就可以大大提高理論計算能力。軟件在這里扮演了一個關(guān)鍵角色,因為它能夠在不同的塊之間正確地分配工作負載。Cadence解釋說,這種方式也可以用來加速單個內(nèi)核/推理,此外他們還設想通過芯片到芯片通信實現(xiàn)可能的多芯片擴展。
就DNA 100的性能而言,Cadence再次強調(diào)其架構(gòu)的實際性能明顯高于具有相同數(shù)量MAC的等效競爭架構(gòu)。這里的“有效TMACs”是一個奇怪的指標,以雷鋒網(wǎng)獲取的信息來看,根據(jù)權(quán)重和激活數(shù)據(jù)是否經(jīng)過編譯器和培訓的修剪,有效性能也在2倍到3倍之間浮動。
Cadence展示了ResNet50的性能,其DNA 100配置為最大4K MAC配置,具有4TMAC的原始硬件性能。根據(jù)官方數(shù)據(jù),DNA 100的性能比競爭解決方案高出4.7倍,它的性能達到了2550fps,而競爭對手的性能為538fps。在能耗比方面,DNA 100相比競爭解決方案也具有2.3倍的優(yōu)勢。當然,測試中的網(wǎng)絡經(jīng)過了修剪,以在DNA 100上達到最好結(jié)果。
在軟件方面,Cadence提供了一個完整的軟件棧和神經(jīng)網(wǎng)絡編譯器來充分利用硬件,包括網(wǎng)絡分析器和優(yōu)化器以及所需的設備驅(qū)動程序。Cadence最近還宣布,它將支持Facebook的Glow編譯器(一個跨硬件平臺的機器學習編譯器)。
DNA 100的硬件IP將在2019年初獲得許可,產(chǎn)品最早將在2020年底左右面世。
相關(guān)文章
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案