國(guó)產(chǎn)大模型第一梯隊(duì)玩家,為什么pick了CPU?
2024-07-10 20:00:18AI云資訊11125
AI一天,人間一年。
現(xiàn)在不論是大模型本身,亦或是AI應(yīng)用的更新速度簡(jiǎn)直令人直呼跟不上——
Sora、Suno、Udio、Luma……重磅應(yīng)用一個(gè)接一個(gè)問(wèn)世。
也正如來(lái)自InfoQ的調(diào)查數(shù)據(jù)顯示的那般,雖然AIGC目前還處于起步階段,但市場(chǎng)規(guī)模已初具雛形:
行業(yè)整體迅速發(fā)展固然是好事,但具體到每個(gè)的應(yīng)用或者大模型的落地來(lái)說(shuō),面臨的競(jìng)爭(zhēng)也越發(fā)激烈了。
例如前不久各個(gè)大模型廠商之間展開的非常激烈的“價(jià)格戰(zhàn)”,主打一個(gè)比誰(shuí)更便宜,甚至直接把大模型價(jià)格推向“厘時(shí)代”。
加上最近OpenAI的“斷供”事件,更是讓國(guó)內(nèi)廠商們?cè)诖虺觥拜p松搬家”計(jì)劃的同時(shí),再加碼Tokens送送送的力度。
究其原因,也是與當(dāng)下應(yīng)用為王,尤其是以盡量低的成本把業(yè)務(wù)快速落地的這一大趨勢(shì)緊密相關(guān)。
那么問(wèn)題來(lái)了,大模型玩家們何以在又快又好又省之間做到平衡?
這就回到了那個(gè)避不開,同時(shí)又是成本里占絕對(duì)大頭的因素——算力。
現(xiàn)在提及大模型的訓(xùn)練和推理,很多人的第一反應(yīng)或許就是想到了GPU。
誠(chéng)然GPU在高性能上占據(jù)著一定的優(yōu)勢(shì),但它所存在“硬傷”也是比較明顯,那便是供應(yīng)不足、價(jià)格昂貴。
何以破局?國(guó)產(chǎn)大模型第一梯隊(duì)玩家百度智能云千帆大模型平臺(tái),就給出了自己的一個(gè)更具“效價(jià)比”的解法:
具體到算力的部署上,百度智能云AI與大模型平臺(tái)總經(jīng)理忻舟認(rèn)為:
一言蔽之,在大模型時(shí)代,CPU甚至比以往更加重要了,而且是能讓大模型和應(yīng)用做到“快好省”落地的關(guān)鍵因素之一。
那么具體“上崗”效果又是如何,我們繼續(xù)往下看。
國(guó)產(chǎn)頭部大模型玩家,pick了CPU
國(guó)內(nèi)AIGC應(yīng)用爆發(fā),這其中,百度智能云千帆大模型平臺(tái)功不可沒(méi)。
作為企業(yè)使用大模型的”一站式”服務(wù)平臺(tái),千帆大模型平臺(tái)自去年3月發(fā)布以來(lái)已有超12萬(wàn)客戶使用,累計(jì)調(diào)優(yōu)模型2萬(wàn)個(gè),孵化應(yīng)用4.2萬(wàn)個(gè)。
這些應(yīng)用覆蓋教育、金融、辦公、醫(yī)療等眾多場(chǎng)景,為行業(yè)數(shù)字化轉(zhuǎn)型提供了有力支撐。
在教育領(lǐng)域,千帆大模型平臺(tái)賦能了試題生成、在線批改、題目解析等應(yīng)用,大大提升了教學(xué)和備考效率。
例如用戶可以提供參考材料,設(shè)定題型和難度,平臺(tái)就能自動(dòng)生成高質(zhì)量的試題。而交互式的題目解析,則可以針對(duì)每位學(xué)生的薄弱環(huán)節(jié),提供個(gè)性化的學(xué)習(xí)指導(dǎo)。
在辦公場(chǎng)景,千帆大模型平臺(tái)與業(yè)內(nèi)頭部企業(yè)合作,共同打造了智能寫作助手等創(chuàng)新應(yīng)用,能夠根據(jù)用戶輸入的關(guān)鍵詞,快速生成招聘文案、營(yíng)銷方案、數(shù)據(jù)報(bào)告等專業(yè)文檔。
還可以專注于各類寫作場(chǎng)景,可以智能生成論文大綱、項(xiàng)目匯報(bào)、品牌宣傳稿等,大大提升了行政和營(yíng)銷人員的工作效率。
醫(yī)療健康是千帆大模型平臺(tái)的另一大應(yīng)用賽道?;卺t(yī)療知識(shí)庫(kù)訓(xùn)練的模型,可以自動(dòng)生成體檢報(bào)告解讀,用通俗易懂的語(yǔ)言向用戶解釋各項(xiàng)指標(biāo),并給出個(gè)性化的健康指導(dǎo)。
這讓普通大眾也能更好地了解自己的身體狀況,實(shí)現(xiàn)”健康自主管理”。
可以看到,千帆大模型平臺(tái)在多個(gè)領(lǐng)域?qū)崿F(xiàn)了AI模型的”最后一公里”落地。
那么千帆大模型平臺(tái)是怎么支撐如此多AI應(yīng)用的呢?
答案是:讓CPU成為客戶的選擇之一,讓“效價(jià)比”的紅利普惠千行百業(yè)。
之所以如此,百度智能云所給出的解釋是:
至于效果,以Llama-2-7B為例,在第四代英特爾® 至強(qiáng)® 可擴(kuò)展處理器上輸出 Token 吞吐可達(dá) 100 TPS 以上,相比第三代提升了60%。
△Llama-2-7b模型輸出Token吞吐
在低延遲的場(chǎng)景,同等并發(fā)下,第四代至強(qiáng)® 可擴(kuò)展處理器的首Token時(shí)延比第三代至強(qiáng)® 可降低50%以上。
在將處理器升級(jí)為第五代至強(qiáng)® 可擴(kuò)展處理器之后,較上代的吞吐可提升45%左右,首 Token 時(shí)延下降50%左右。
△Llama-2-7b模型首Token時(shí)延
并且千帆大模型平臺(tái)團(tuán)隊(duì)根據(jù)實(shí)踐經(jīng)驗(yàn)還表示:
不僅如此,利用充足的CPU資源,降低對(duì)于AI加速卡的需求,從而降低 LLM 推理服務(wù)的總體擁有成本 (TCO),特別是在離線的 LLM 推理場(chǎng)景中表現(xiàn)出色。
而且在千帆大模型平臺(tái)上,可不止是有自家的ERNIE,還有很多主流的大模型都集成于此。
這也在一定程度上從側(cè)面印證了第五代英特爾® 至強(qiáng)® 可擴(kuò)展處理器在性能上的過(guò)關(guān)。
英特爾第五代至強(qiáng),如何讓性能和效率變得Pro Max?
百度智能云千帆大模型平臺(tái),不止需要大模型推理一種工作負(fù)載,它其實(shí)是一個(gè)覆蓋大模型全生命周期的平臺(tái)。
具體來(lái)說(shuō),千帆大模型平臺(tái)提供數(shù)據(jù)標(biāo)注,模型訓(xùn)練與評(píng)估,推理服務(wù)與應(yīng)用集成的全面功能服務(wù),以及快速應(yīng)用編排與插件集成,助力大模型多場(chǎng)景落地應(yīng)用。這樣一來(lái),比起專為大模型推理部署專用加速器,充分利用平臺(tái)已廣泛部署的CPU資源,就是更劃算的選擇了。
對(duì)于千帆大模型平臺(tái)上存在的大量離線大模型應(yīng)用需求來(lái)說(shuō),如生成文章總結(jié)、摘要、評(píng)估多個(gè)模型的效果等,這類需求對(duì)推理的時(shí)延要求其實(shí)不高,但內(nèi)存容易成為瓶頸。
采用CPU來(lái)做,擴(kuò)展內(nèi)存更方便,還可以利用起平臺(tái)閑時(shí)的算力資源,進(jìn)一步提高資源利用率,起到降低總擁有成本的作用。
在這個(gè)大背景下,第五代英特爾® 至強(qiáng)® 可擴(kuò)展處理器中的性能密集型通用計(jì)算應(yīng)用負(fù)載(類似P Core性能核)的設(shè)計(jì)就尤為關(guān)鍵了。
與E Core(能效核)相比,P Core采用了追求性能最大化的設(shè)計(jì),能承載非常重的負(fù)載,同時(shí)還兼顧了AI推理加速。
采用此設(shè)計(jì)的第五代至強(qiáng)® 可擴(kuò)展處理器,在兼顧AI推理加速這一點(diǎn)上可不是說(shuō)說(shuō)而已,而是軟硬件協(xié)同優(yōu)化,各方面都考慮到位了。
硬件方面,英特爾® AMX(高級(jí)矩陣擴(kuò)展)技術(shù),正是為大模型推理重深度學(xué)習(xí)中大量的矩陣乘法運(yùn)算專門優(yōu)化的,可以理解成”CPU 里的 Tensor Core”。
有了英特爾® AMX,處理器每個(gè)時(shí)鐘周期可完成高達(dá)2048個(gè)INT8運(yùn)算,比上一代AVX512_VNNI指令提升8倍之多。
更重要的是,英特爾® AMX加速器是內(nèi)置在CPU核心里的,讓矩陣存儲(chǔ)和運(yùn)算更近,這一特性應(yīng)用在大模型推理上,能夠降低處理下一個(gè)Token的時(shí)延,讓終端用戶的體驗(yàn)更好。
△英特爾® AMX 可以更高效的實(shí)現(xiàn) AI 加速
軟件方面,百度智能云千帆大模型平臺(tái)已經(jīng)引入了針對(duì)英特爾® 至強(qiáng)® 可擴(kuò)展平臺(tái)深度優(yōu)化的大模型推理軟件解決方案xFasterTransformer (xFT),并將其作為后端推理引擎。主要優(yōu)化策略如下:
充分利用 AMX/AVX512 等指令集,高效實(shí)現(xiàn)核心算子如 Flash Attention 等采用低精度量化,降低數(shù)據(jù)訪存量,發(fā)揮 INT8/BF16 運(yùn)算的優(yōu)勢(shì)支持超大規(guī)模模型的多機(jī)多卡并行推理
△英特爾® 至強(qiáng)® 可擴(kuò)展處理器 LLM 推理軟件解決方案
最后還要補(bǔ)充的一點(diǎn)是,要知道選擇一種硬件平臺(tái),不止關(guān)乎于設(shè)備本身的采購(gòu)價(jià)格,還會(huì)影響到后續(xù)的維護(hù)成本,甚至人才儲(chǔ)備成本。
所以正如百度智能云所言,高性價(jià)比的算力基礎(chǔ)設(shè)施,與先進(jìn)的大模型算法和平臺(tái)軟件相輔相成,讓上層的開發(fā)者們能夠更加平滑地應(yīng)用,構(gòu)建他們的業(yè)務(wù),才能最大化云計(jì)算平臺(tái)的商業(yè)價(jià)值。
大模型時(shí)代,CPU大有可為
縱觀當(dāng)下,大模型正從實(shí)驗(yàn)室走向產(chǎn)業(yè),從少數(shù)人的“玩具”變?yōu)榇蟊娍捎玫摹肮ぞ摺薄?
這意味著,大模型服務(wù)不僅要有優(yōu)秀的性能表現(xiàn),還要做到價(jià)格親民、部署便捷。一言以蔽之,“快好省”成了大模型商業(yè)化的關(guān)鍵一環(huán)。
而要實(shí)現(xiàn)“快好省”,算力基礎(chǔ)設(shè)施的選擇至關(guān)重要。
傳統(tǒng)觀點(diǎn)認(rèn)為,專用加速器才是AI的“標(biāo)配”。但在供應(yīng)緊張、成本高企的背景下,專用加速器的優(yōu)勢(shì)正在減弱。
相比之下,優(yōu)化良好的高端 CPU 不僅能提供足夠應(yīng)對(duì)大模型推理的算力,而且具有更廣泛的部署基礎(chǔ)和更成熟的軟件生態(tài)、以及更好的安全保障,開始受到越來(lái)越多業(yè)界玩家的青睞。
以英特爾® 至強(qiáng)® 系列為代表的x86架構(gòu)CPU,擁有成熟完善的軟件生態(tài)和廣泛的應(yīng)用基礎(chǔ)。數(shù)以百萬(wàn)計(jì)的開發(fā)者可以利用現(xiàn)有工具和框架,快速構(gòu)建和優(yōu)化AI應(yīng)用,而無(wú)需額外學(xué)習(xí)專門的加速器軟件棧,大大降低了開發(fā)難度和遷移成本。
同時(shí),企業(yè)級(jí)用戶還可以利用CPU內(nèi)置的多層次安全技術(shù),實(shí)現(xiàn)從硬件到軟件的全棧保護(hù),充分保障數(shù)據(jù)安全和隱私。這些優(yōu)勢(shì),是當(dāng)前專用加速器難以比擬的。
由此可見,充分利用CPU進(jìn)行推理,讓AI從“燒錢游戲”變?yōu)椤捌栈菘萍肌保茿IGC產(chǎn)業(yè)應(yīng)對(duì)算力門檻,推動(dòng)規(guī)?;瘧?yīng)用落地的關(guān)鍵一招。未來(lái),隨著技術(shù)創(chuàng)新和生態(tài)完善,這一模式還將為更多企業(yè)創(chuàng)造價(jià)值,為產(chǎn)業(yè)發(fā)展注入新的動(dòng)力。
除了直接加速推理任務(wù)外,CPU在完整的端到端AI管線中還能高效完成數(shù)據(jù)預(yù)處理、特征工程等AI全流程中的關(guān)鍵步驟。而支持機(jī)器學(xué)習(xí)和圖分析的各類數(shù)據(jù)庫(kù),也主要是構(gòu)建在CPU之上的。以至強(qiáng)® 可擴(kuò)展處理器為例,除了英特爾® AMX之外,還有諸如英特爾® 數(shù)據(jù)保護(hù)與壓縮加速技術(shù)(英特爾® QAT)、英特爾® 存內(nèi)分析加速器(英特爾® IAA)等一系列數(shù)據(jù)分析引擎內(nèi)置于處理器中,通過(guò)卸載特定任務(wù)使CPU得到更好的利用,從而提升工作負(fù)載整體性能,實(shí)現(xiàn)數(shù)據(jù)分析加速。
由此可見,構(gòu)建“快、準(zhǔn)、穩(wěn)”的 AI 應(yīng)用,既要靠專用加速器強(qiáng)大的算力,也離不開CPU超強(qiáng)的通用計(jì)算能力去釋放整個(gè)系統(tǒng)的潛力。
為了科普CPU在AI推理新時(shí)代的玩法,量子位開設(shè)了《最“in”AI》專欄,將從技術(shù)科普、行業(yè)案例、實(shí)戰(zhàn)優(yōu)化等多個(gè)角度全面解讀。
我們希望通過(guò)這個(gè)專欄,讓更多的人了解CPU在AI推理加速,甚至是整個(gè)AI平臺(tái)或全流程加速上的實(shí)踐成果,重點(diǎn)就是如何更好地利用CPU來(lái)提升大模型應(yīng)用的性能和效率。(量子位)相關(guān)文章
- 92%學(xué)生實(shí)現(xiàn)高效突破!她將高中物理考點(diǎn)濃縮為4大模型,逆襲突破成常態(tài)
- 網(wǎng)安周開幕|綠盟大模型能力再獲權(quán)威肯定,持續(xù)推動(dòng)AI與網(wǎng)絡(luò)安全深度融合
- 網(wǎng)絡(luò)安全領(lǐng)域唯一入選!聯(lián)通數(shù)科網(wǎng)絡(luò)安全大模型入選北京首臺(tái)(套)重大技術(shù)裝備目錄
- 亞信科技通過(guò)中國(guó)信通院首批“大模型應(yīng)用交付總體能力”評(píng)估
- 科大訊飛亮相2025服貿(mào)會(huì)多個(gè)展館,訊飛星火大模型引領(lǐng)AI+產(chǎn)業(yè)融合實(shí)踐
- 中國(guó)移動(dòng)助力中國(guó)物流打造物流行業(yè)專屬千億級(jí)參數(shù)大模型
- 科大訊飛助力中國(guó)物流發(fā)布千億參數(shù)“流云”大模型
- 快手發(fā)布多模態(tài)大模型Keye-VL-1.5 8B性能領(lǐng)先、視頻理解能力更強(qiáng)
- 皓麗全球首款四攝AI會(huì)議平板:AI全視之眼 + AI智會(huì)大模型雙加持
- Soul全雙工語(yǔ)音大模型升級(jí) 迭代人機(jī)交互體驗(yàn)感
- 模型選型專題系列 | 業(yè)界首個(gè)!元景MaaS平臺(tái)上線《大模型選型說(shuō)明書》
- 獲央視點(diǎn)贊 深蘭科技AI醫(yī)療大模型落地打浦橋街道社區(qū)服務(wù)中心
- 新達(dá)內(nèi)與百度智能云達(dá)成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 斑馬AI大模型:為每個(gè)孩子提供專屬學(xué)習(xí)方案
- 打造廣東首個(gè)地方文獻(xiàn)專題處理AI大模型,南沙區(qū)圖書館“阿貝數(shù)字人”項(xiàng)目重磅上線!
- 商湯大裝置躋身中國(guó)大模型平臺(tái)市場(chǎng)頭部廠商,萬(wàn)象平臺(tái)加速AI落地“最后一公里”
人工智能企業(yè)
更多>>- 形態(tài)再革新 三星Galaxy S25 Edge給出輕薄旗艦終極答案
- 從超薄曲面屏到全場(chǎng)景AI,傳音手機(jī)推動(dòng)前沿科技落地新興市場(chǎng)
- 神眸BC22+全新上市,重新定義“真無(wú)線”智能安防
- 華為《AIDC機(jī)房參考設(shè)計(jì)白皮書》重磅發(fā)布,賦能AI算力基礎(chǔ)設(shè)施邁向新高度
- 億萬(wàn)克R322A7+服務(wù)器上新,可靠性封神!
- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計(jì)算”論壇圓滿召開——攜產(chǎn)界實(shí)踐洞見共探智能時(shí)代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國(guó)
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗(yàn)
人工智能產(chǎn)業(yè)
更多>>- AIDC產(chǎn)業(yè)發(fā)展大會(huì)隆重召開,開啟AIDC新紀(jì)元
- 絢星破局AI落地困境,四大業(yè)務(wù)重構(gòu)企業(yè)智能生產(chǎn)力新范式
- 騰訊啟動(dòng)AI應(yīng)用繁榮計(jì)劃,新一期AI共創(chuàng)營(yíng)報(bào)名企業(yè)超300家
- 首都機(jī)場(chǎng)“AI繪空港”大賽完美收官,卓特視覺(jué)以技術(shù)賦能創(chuàng)意未來(lái)
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國(guó)首個(gè)人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來(lái)——2025高交會(huì)亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時(shí)達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
人工智能技術(shù)
更多>>- 騰訊開源框架 Kuikly 再升級(jí)!率先適配 “液態(tài)玻璃”,原生體驗(yàn)更極致
- 外灘大會(huì)首發(fā)! 螞蟻密算推出AI密態(tài)升級(jí)卡 實(shí)現(xiàn)零改動(dòng)“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會(huì)
- 2025外灘大會(huì):王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來(lái)落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時(shí)交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢(shì)科技,提升科研數(shù)據(jù)處理效能