華為芮祥麟:讓麒麟980成為未來移動(dòng)AI的發(fā)動(dòng)機(jī)
2018-10-02 10:23:25AI云資訊1211
華為于8月底重磅發(fā)布的AI芯片麒麟980在幾個(gè)方面做到了全球第一:全球首款商用7nm手機(jī)SoC芯片;全球首款Cortex-A76 Based CPU;全球首款雙核NPU;全球首款Mali-G76 GPU;全球首款1.4Gbps Cat.21 Modem;全球首款支持2133MHz LPDDR4X的手機(jī)SoC芯片。
9月20日,在北京國家會(huì)議中心舉辦的AI World 2018 世界人工智能峰會(huì)上,華為麒麟AI首席科學(xué)家芮祥麟博士發(fā)表了題為《麒麟980:移動(dòng)AI的發(fā)動(dòng)機(jī)》的演講。
芮祥麟博士詳細(xì)介紹了麒麟980芯片的設(shè)計(jì)和性能提升,以及麒麟980的融合能力開放架構(gòu)中非常重要的HiAI Foundation。HiAI Foundation能力向搭載麒麟970,麒麟980的華為手機(jī)全部開放,具有強(qiáng)大的計(jì)算能力、多框架支持、更加豐富的算子和更加方便快捷的集成等優(yōu)勢(shì)。
在目前數(shù)據(jù)隱私保護(hù)情況下,很多事情實(shí)際上無法單獨(dú)由云上的計(jì)算力完成,必須要在端側(cè)完成。
這是非常復(fù)雜的多目標(biāo)的優(yōu)化問題,存在能耗、內(nèi)存上的限制,而且在各種場(chǎng)景下有不同的需求。華為的一個(gè)主要目的就是能夠在端側(cè)開發(fā)出很好的芯片,能夠?qū)⒈M量多的處理能力在端側(cè)完成,在最大程度上提升用戶體驗(yàn)。
以下是芮祥麟博士的演講內(nèi)容:
芮祥麟:大家好,我是華為麒麟AI的首席科學(xué)家芮祥麟,很榮幸參加AI World 2018大會(huì),跟大家一起分享一些成果。
從芯片的角度出發(fā),我選擇的題目是《Mobile AI發(fā)動(dòng)機(jī):麒麟980》。
在現(xiàn)在這個(gè)時(shí)刻講這個(gè)題目,挑戰(zhàn)很大。一年前,華為麒麟970 AI芯片是第一個(gè)開發(fā)出來,也是第一個(gè)產(chǎn)品化的。過去一段時(shí)間內(nèi),各大企業(yè)在AI芯片上的投入風(fēng)起云涌,但我們相信,新一代麒麟980芯片仍然是領(lǐng)先群雄的。
我想先回顧一下去年推出麒麟970之后整個(gè)市場(chǎng)的反應(yīng),確實(shí)有質(zhì)疑聲,但絕大部分都是相當(dāng)正面的評(píng)價(jià),也有一些客戶提出了比較好的建議。我們根據(jù)市場(chǎng)和合作伙伴的反饋,進(jìn)一步對(duì)芯片進(jìn)行改良和升級(jí),就是今天給大家介紹的麒麟980。
麒麟980:六項(xiàng)世界第一,不同CPU配置滿足動(dòng)態(tài)需求
前一段時(shí)間已經(jīng)有很多媒體報(bào)道,麒麟980在幾個(gè)方面做到了世界第一:全球首款7納米SoC芯片,全球首款基于Cortex A76 CPU定制開發(fā),全球首款雙核NPU,全球首款商用Mali G76 GPU,全球率先支持LTE Cat.21,峰值下載速率達(dá)到1.4Gbps,全球首款可以支持LPDDR4X顆粒,最高主頻達(dá)到2133Mhz。
CPU是8核,不同大小的核適合各個(gè)不同的需求,NPU是雙核的。其他包括Modem、DDR,還有ISP,整個(gè)設(shè)計(jì)工程相當(dāng)復(fù)雜,這是大批一流專家共同努力的成果。
從麒麟920開始,到950、970、980,這是一個(gè)不斷成長的過程,麒麟980集成了69億晶體管,芯片面積持續(xù)縮小,晶體管密度持續(xù)提升。這樣做是為了能夠在非常有限的面積內(nèi)降低能耗,提高計(jì)算力。
在芯片方面,CPU是由兩個(gè)高性能的超大核,兩個(gè)高能效的大核,加上四個(gè)高能效的小核一起協(xié)作。在應(yīng)用方面,播放音樂只需打開CPU的小核,在社交應(yīng)用場(chǎng)景用高能效的大核加上三個(gè)小核。進(jìn)入重負(fù)載的游戲場(chǎng)景,就需要八個(gè)核都要用上。
針對(duì)不同的場(chǎng)景,比如音樂、導(dǎo)航、通話或拍照,我們動(dòng)員了各個(gè)不同的核,這是一個(gè)基于能耗、響應(yīng)速度、內(nèi)存應(yīng)用的復(fù)雜考量,是我們的工程師優(yōu)化的結(jié)果。
可以看到,全球首款7納米SoC芯片上,在各方面都有了很大提升,相比麒麟920,晶體管密度提高了6.8倍,性能方面提高了2.5倍,能效方面提高了4倍。
以圖像識(shí)別速度為例,我們比友商1、友商2提高很多,基本上可以說快了3倍。在AI性能方面,跟友商的芯片比起來,用Resnet4或Inception V3測(cè)試參考,無論能效還是性能方面都有很大的提升。計(jì)算力方面,我們用三個(gè)場(chǎng)景來進(jìn)行比較,物體識(shí)別、實(shí)時(shí)圖像處理,實(shí)時(shí)分割。
麒麟970可以做輪廓、圖片以及一些粗略的分割,但是在麒麟980可以做得更細(xì)致,對(duì)整個(gè)姿態(tài)、形狀、細(xì)節(jié)能夠做到很好的視頻處理,在分割方面也更精準(zhǔn)。
圖中最底層是整個(gè)SoC布局,如何基于SoC布局提供更好的能力?在ISP方面,我們能夠提供低延遲的視頻處理流水線和高質(zhì)量圖象處理流水線,這些流水線可以執(zhí)行一些基本的AI任務(wù),在視頻方面,可以進(jìn)行人體關(guān)節(jié)檢測(cè)識(shí)別,還有姿態(tài)識(shí)別。
圖片方面的任務(wù)更多,文本識(shí)別、圖像超分、圖像降噪、RGB還原等。在視頻方面,可以執(zhí)行主體識(shí)別、區(qū)域分割、主體摳圖,這些提供了一些基礎(chǔ)的能力模塊,能夠高效支撐AR SLAM,做到視頻流姿態(tài)提取、地圖重建等。這些功能不只是我們自己用,也通過API開放給第三方??梢灾С值谌降腁R APP、視頻APP和圖片APP。
開放架構(gòu)支持自定義算子,提升芯片集成調(diào)動(dòng)能力
這張圖上,最底層是SoC結(jié)構(gòu),有很好的傳感器處理,DDK是我們的庫,還有API,配合攝像頭,可以提供Camera DDK,做到前光、暗光、高動(dòng)態(tài)、高分辨率,在AR DDK方面提供 SLAM算子加速、人臉建模、跟蹤能力等1000多個(gè)能力。我們有33個(gè)API,147個(gè)算子支持。
算子支持非常關(guān)鍵,各個(gè)框架的算子都很多,我們支持147個(gè)算子,而且支持更開放的能力,支持自定義算子,并將這些算子和硬件特性實(shí)現(xiàn)很好地適配。同樣都叫算子,比如LSTM,當(dāng)映射到芯片層面上時(shí),如何能夠最大化地發(fā)揮芯片的計(jì)算力,做到最大化地降低能耗、響應(yīng)迅速,這些都是要仔細(xì)思考的問題。我們?cè)谒阕訉用娴拈_放更快、更有彈性,適配性更強(qiáng)。
整個(gè)軟件棧的最底層是我們的SoC,上面是驅(qū)動(dòng)器,這里面有調(diào)度系統(tǒng),可以發(fā)揮集成調(diào)度能力,以及CPU、GPU、DSP、NPU的綜合能力。這有點(diǎn)像機(jī)器學(xué)習(xí)中所謂“集成學(xué)習(xí)”,也就是執(zhí)行各種架構(gòu)的芯片的集成調(diào)度能力。它支持谷歌的在線推理,也支持離線推理。
這兩個(gè)模型各有優(yōu)缺點(diǎn)。根據(jù)使用場(chǎng)景以及模型的復(fù)雜度的不同,我們做到二者都能夠支持。當(dāng)然,也會(huì)支持一些通用框架,比如Caffe、TensorFlow各個(gè)應(yīng)用,提供端到端的開發(fā)工具鏈,即集成開發(fā)環(huán)境,同時(shí)支持很方便的編譯器和顯示工具。
每個(gè)不同結(jié)構(gòu)的處理器都能夠發(fā)揮作用,NPU專門針對(duì)張量計(jì)算。我們的核可以快速處理特殊指令集、特殊結(jié)構(gòu),能夠很快地處理高維度的張量運(yùn)算。如果把一個(gè)算法拆開,事實(shí)上到了芯片層面,就只剩下張量運(yùn)算、矢量運(yùn)算、標(biāo)量運(yùn)算。矢量運(yùn)算多半用于圖象處理以及大規(guī)模的并行處理,標(biāo)量運(yùn)算通常是處理一些控制指令集,邏輯控制,和一些通用的運(yùn)算。
比如要估算模型的生命周期,實(shí)現(xiàn)從模型產(chǎn)生到模型格式的自動(dòng)轉(zhuǎn)換,就可以生成一個(gè)離線模型,它的執(zhí)行效率會(huì)更高,運(yùn)算速度更快,可以加載到NPU上面做各種運(yùn)算。
跟CPU相比,以NPU為驅(qū)動(dòng)的處理架構(gòu)的整個(gè)性能提升了25倍,整個(gè)能效提高了50倍,甚至在整個(gè)NPU和CPU混合調(diào)度情況下,也能有非常好的收益。在算子的支持方面,我們至少在AI芯片的級(jí)別上還保持領(lǐng)先,經(jīng)過一年的積累,整個(gè)算子的豐富度、復(fù)雜度,每顆算子的性能都提升了很多。
HiAI Foundation:讓不懂機(jī)器學(xué)習(xí)的用戶實(shí)現(xiàn)自己的應(yīng)用
我們的HiAI開放架構(gòu)已經(jīng)走了一年,去年這個(gè)時(shí)候是麒麟970配合Mate10發(fā)布,經(jīng)過一年的努力,我們對(duì)于整個(gè)生態(tài),對(duì)于端側(cè)AI框架需求有了更深的體驗(yàn),我們會(huì)繼續(xù)走下去。
我們的目標(biāo)是:第一,希望能夠設(shè)計(jì)出更好的芯片,增加算力。第二,希望能夠?qū)τ脩羝帘卧O(shè)計(jì)方案的硬件復(fù)雜度,也就是說,使用很簡單的接口,讓不太懂機(jī)器學(xué)習(xí)的客戶也能調(diào)用接口,實(shí)現(xiàn)他們自己的應(yīng)用。
如果客戶對(duì)機(jī)器學(xué)習(xí)有一定接觸,可以利用我們的接口很快搭建出一個(gè)模型及其訓(xùn)練優(yōu)化方案,這些都是我們希望能夠通過HiAI平臺(tái)實(shí)現(xiàn)的目標(biāo)。
整個(gè)計(jì)算在手機(jī)上面可以做到姿態(tài)識(shí)別、對(duì)象跟蹤,這些都不是在云上計(jì)算的,而是將整個(gè)模型搬到端側(cè)來實(shí)現(xiàn),模型大小適中,處理速度很快,我們?yōu)榇艘哺械椒浅r湴粒覀€(gè)人也參與過一些模型的構(gòu)建。
最后說一說我們?yōu)槭裁慈绱藢W㈤_發(fā)AI芯片。在目前數(shù)據(jù)隱私保護(hù)形勢(shì)下,很多事情無法單獨(dú)由云上的計(jì)算力完成,必須要在端側(cè)去完成。這是非常復(fù)雜的多目標(biāo)的優(yōu)化問題。
這往往要面對(duì)能耗和內(nèi)存的雙重限制,面對(duì)各種場(chǎng)景下的不同需求。比如在車載應(yīng)用中要求響應(yīng)速度很快,對(duì)各種圖片和視頻的處理精確度要求比較高,在聲音方面,降噪的要求就非常高,如何能夠利用GAN的方式去把聲紋和內(nèi)容分開,這中間往往牽扯到個(gè)人隱私。
我們的主要目的是要在端側(cè)方面開發(fā)出高性能的芯片,將盡量多的處理過程在端側(cè)完成,爭(zhēng)取提供最好的用戶體驗(yàn)。
謝謝大家!
相關(guān)文章
- 云從科技獲華為“昇騰生態(tài)最佳實(shí)踐伙伴”獎(jiǎng) 共創(chuàng)AI產(chǎn)業(yè)新生態(tài)
- 華為云聯(lián)手Hobby打造“AI戀綜”:一場(chǎng)技術(shù)與情感的浪漫碰撞
- 國家網(wǎng)絡(luò)安全周看點(diǎn):華為瀏覽器推出多重舉措,為用戶隱私安全“上鎖”
- “AI+制造”走深向?qū)崳A為構(gòu)建全棧能力,點(diǎn)亮智造未來
- 華為楊超斌:共筑標(biāo)準(zhǔn)規(guī)范,共創(chuàng)AIDC新紀(jì)元
- 華為《AIDC機(jī)房參考設(shè)計(jì)白皮書》重磅發(fā)布,賦能AI算力基礎(chǔ)設(shè)施邁向新高度
- 華為發(fā)布光智共融戰(zhàn)略及系列新品,加速邁向下一代光網(wǎng)絡(luò)AI-ON
- 華為陳幫華:基于光智共融戰(zhàn)略,AI-OTN和AI-FAN解決方案將推動(dòng)光網(wǎng)絡(luò)邁向AI-ON
- 華為擎云攜智慧教育解決方案亮相第七屆深圳教育裝備博覽會(huì)
- 天翼數(shù)字生活攜手華為等伙伴,推出全光Wi-Fi新品賦能綠色低碳家
- 華為:AI+制造不是技術(shù)秀場(chǎng),而是全棧新基建革新
- 華為星河AI網(wǎng)絡(luò)安全亮相2025國家網(wǎng)絡(luò)安全宣傳周
- 華為發(fā)布數(shù)據(jù)通信未來十大技術(shù)趨勢(shì)報(bào)告,引領(lǐng)未來網(wǎng)絡(luò)發(fā)展方向
- 高溫?zé)捳婀?,極限驗(yàn)實(shí)力!華為乾崑吐魯番夏測(cè),打造智能汽車安全新基準(zhǔn)
- 華為全聯(lián)接大會(huì)2025劇透:CloudDevice以新產(chǎn)品、新成果、新生態(tài)驅(qū)動(dòng)產(chǎn)業(yè)生態(tài)加速發(fā)展
- ODCC 2025 | 華為SSD斬獲年度卓越成果獎(jiǎng),全新AI SSD系列新品驚艷亮相引行業(yè)熱議
人工智能企業(yè)
更多>>- 形態(tài)再革新 三星Galaxy S25 Edge給出輕薄旗艦終極答案
- 從超薄曲面屏到全場(chǎng)景AI,傳音手機(jī)推動(dòng)前沿科技落地新興市場(chǎng)
- 神眸BC22+全新上市,重新定義“真無線”智能安防
- 華為《AIDC機(jī)房參考設(shè)計(jì)白皮書》重磅發(fā)布,賦能AI算力基礎(chǔ)設(shè)施邁向新高度
- 億萬克R322A7+服務(wù)器上新,可靠性封神!
- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計(jì)算”論壇圓滿召開——攜產(chǎn)界實(shí)踐洞見共探智能時(shí)代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗(yàn)
人工智能產(chǎn)業(yè)
更多>>- AIDC產(chǎn)業(yè)發(fā)展大會(huì)隆重召開,開啟AIDC新紀(jì)元
- 絢星破局AI落地困境,四大業(yè)務(wù)重構(gòu)企業(yè)智能生產(chǎn)力新范式
- 騰訊啟動(dòng)AI應(yīng)用繁榮計(jì)劃,新一期AI共創(chuàng)營報(bào)名企業(yè)超300家
- 首都機(jī)場(chǎng)“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個(gè)人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會(huì)亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時(shí)達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
人工智能技術(shù)
更多>>- 騰訊開源框架 Kuikly 再升級(jí)!率先適配 “液態(tài)玻璃”,原生體驗(yàn)更極致
- 外灘大會(huì)首發(fā)! 螞蟻密算推出AI密態(tài)升級(jí)卡 實(shí)現(xiàn)零改動(dòng)“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會(huì)
- 2025外灘大會(huì):王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時(shí)交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢(shì)科技,提升科研數(shù)據(jù)處理效能