vivo攜手昆侖芯、wenet助力提升語音識別效果與性能,共建開源生態(tài)
2022-11-28 19:53:44AI云資訊1379
語音識別是AI領(lǐng)域的一項重要基礎(chǔ)服務(wù),同樣也是vivo AI體系中舉足輕重的能力,是Jovi輸入法、Jovi語音助手等應(yīng)用的基石。打造高準(zhǔn)確率、高性能的語音識別引擎,才能給vivo億級的語音用戶帶來良好的體驗。基于wenet端到端語音識別工具,vivo結(jié)合自身業(yè)務(wù)場景進(jìn)行深度優(yōu)化,成功研發(fā)離線和流式識別引擎,支撐vivo語音業(yè)務(wù)的快速發(fā)展。
隨著用戶量的快速增?,語音識別性能問題凸顯,CPU推理方案在峰值場景TP99延時較高,且難以滿足高算力的業(yè)務(wù)場景。為確保良好的用戶體驗、進(jìn)一步提升產(chǎn)品及服務(wù)質(zhì)量,性能優(yōu)化、降本增效勢在必行。
vivo AI工程中心在模型推理加速積累了多年經(jīng)驗,為此自研一套語音識別流式推理引擎。引擎支持動態(tài)batching、顯存池、數(shù)據(jù)分桶排序等特性,同時支持CPU和GPU,并在GPU上取得了不錯的加速效果。
昆侖芯科技深耕AI加速領(lǐng)域十余年,專注打造擁有強大通用性、易用性和高性能的通用人工智能芯片,并持續(xù)精進(jìn)在芯片架構(gòu)、軟件棧、工程化系統(tǒng)層級等方面的技術(shù)實力。目前,昆侖芯科技已實現(xiàn)兩代通用AI芯片產(chǎn)品的量產(chǎn)及落地應(yīng)用,通過用算力賦能不同場景中的 AI 應(yīng)用,驅(qū)動千行百業(yè)的智能化轉(zhuǎn)型。
為進(jìn)一步降本增效以及提升用戶體驗,vivo AI工程中心同步啟動AI多元算力項目,聯(lián)合昆侖芯科技,在語音識別場景首先展開研發(fā)共建,深入合作,并已取得階段性突破進(jìn)展。
vivo自研語音識別流式推理引擎
整個引擎包括四部分:
1.wenet解碼器,包括前端處理(特征、VAD等)->encoder->語言模型(wfst)->decoder流程;
2.數(shù)據(jù)調(diào)度,動態(tài)batching、分桶排序等;
3..Runtime適配層,抽象模型推理接口,便于適配不同推理后端;
4.Runtime層,后端推理層包括onnxruntime、GPU、昆侖芯的XpuRT等。
自研引擎特點:
支持多batch流式請求,多batch能充分發(fā)揮硬件計算性能;
動態(tài)batchting,根據(jù)實際請求會在一定時間自動組裝batch,便于提升引擎的并發(fā)吞吐能力;
分桶排序,減少多batch的無效padding,減少無效計算量;
顯存池,高并發(fā)下流式識別緩存會頻繁申請和釋放,通過顯存池優(yōu)化了這部分開銷,提高性能。
另外針對語言模型(wfst)優(yōu)化:
語言模型的lattice-faster-decoder過程有千萬/秒的小對象內(nèi)存申請(ForwardLink和BackpointerToken),通過將小對象合并大對象的池化方案,一次wfst的search從14ms減少到5ms;
線程模型優(yōu)化。默認(rèn)的線程模型是一個會話一個pthread線程,在GPU方案中,每秒數(shù)千線程創(chuàng)建系統(tǒng)負(fù)載較大,通過將pthread線程優(yōu)化為bthread;
對象復(fù)用。將AsrDecoder池化復(fù)用,減少內(nèi)存的動態(tài)申請,cpu性能提升27%。
昆侖芯高性能推理庫方案
AI推理引擎面臨的最大技術(shù)挑戰(zhàn)——同時滿足業(yè)務(wù)快速靈活迭代和硬件高性能。面對該挑戰(zhàn),昆侖芯科技團(tuán)隊為vivo提供了兩種解決方案:基于圖編譯引擎方案和基于高性能推理庫方案。綜合業(yè)務(wù)和性能的雙重考量,vivo團(tuán)隊最終選擇了高性能推理庫方案。該方案基于昆侖芯API高性能算子庫自研模型推理大算子,主要由Encocer和Decoder兩個大算子組成。
高性能推理庫特點:
支持動態(tài)shape,性能與靜態(tài)shape無異,相比”靜態(tài)模擬動態(tài)“可節(jié)省大量寶貴的顯存資源;
支持多batch流式推理,解決流式推理一大難題,特別是cache管理;
深度圖優(yōu)化,使用了昆侖芯豐富的圖融合優(yōu)化,如:ffn_kernel_fusion、attention_fusion等,可變長優(yōu)化技術(shù)等;
不同量化策略,F(xiàn)P16/INT8動態(tài)靜態(tài)量化以及混合量化;
定制算子融合,如ConforermEncoder的RelPos相關(guān)計算可以融合為rel_pos_fusion_kernel等;
自動化工具,模型一鍵導(dǎo)入等。
性能測試
對比不同后端的性能數(shù)據(jù)onnxruntime(cpu)、165w GPU、昆侖芯XPU。
硬件配置:
整體來看,在FP16量化后不同后端均達(dá)到精度無損,昆侖芯高性能推理庫方案單卡并發(fā)達(dá)到了1400路,相比CPU的350路的最大并發(fā),性能提升約4倍,首字和尾字耗時也大大降低,降本增效明顯。單機(jī)單卡的測試外,也進(jìn)行了單機(jī)4卡的壓測,單機(jī)4卡GPU和4卡R200均達(dá)到了4000路并發(fā)。
相對主流165w GPU方案,昆侖芯語音識別高性能推理庫方案通過構(gòu)建大算子的方式也為業(yè)務(wù)根據(jù)自身特性做針對性融合、量化、裁剪提供了更加便捷、更加有用的工具。
昆侖芯在wenet中開源XPU支持
wenet是國內(nèi)最大的語音開源社區(qū),致力于推動語音技術(shù)落地, “共創(chuàng)共贏”。昆侖芯是wenet中支持的首款新型異構(gòu)AI推理芯片,基于昆侖芯第二代推理卡模型推理采用語音高性能推理庫的非流式解碼方案,目前源碼已合入到wenet主線。第二階段,昆侖芯、vivo、wenet社區(qū)三方聯(lián)手,將共同推出圖引擎和高性能庫兩種后端推理,支持多batch流式解碼,模型優(yōu)化到部署端到端的解決方案,為客戶業(yè)務(wù)落地持續(xù)賦能。
未來,昆侖芯將持續(xù)發(fā)揮在推理生態(tài)的領(lǐng)先優(yōu)勢,助力語音業(yè)務(wù)用戶體驗不斷優(yōu)化,同時也將與社區(qū)緊密合作,協(xié)力共建wenet國產(chǎn)生態(tài)。
相關(guān)文章
- vivo影像戰(zhàn)略全面升級,聚焦場景融合構(gòu)建影像生態(tài)矩陣
- vivo Vision探索版重磅發(fā)布:容易“上頭” 打造混合現(xiàn)實體驗“生態(tài)閉環(huán)”
- vivo 2024可持續(xù)發(fā)展報告:以“科技向善”點亮基業(yè)長青藍(lán)圖
- vivo以Rust語言自研的藍(lán)河操作系統(tǒng)內(nèi)核正式開源
- 從尖端技術(shù)到無障礙關(guān)懷:vivo攜多項創(chuàng)新成果亮相聯(lián)通合作伙伴大會
- 三年銷售目標(biāo)1000萬臺 京東與vivo音頻戰(zhàn)略合作全面升級
- vivo TWS Air3 Pro正式發(fā)布:超強降噪 “半入耳降噪蘋替”
- vivo X Fold5旗艦折疊新品發(fā)布 再次定義大折疊輕薄新標(biāo)準(zhǔn)
- 火山引擎攜手 vivo:錨定用戶場景,加速智能終端 AI 應(yīng)用體驗進(jìn)階
- vivo出席博鰲亞洲論壇國際科技與創(chuàng)新論壇2025年香港會議,讓人工智能賦能全民福祉
- 玩得好也能學(xué)得好,學(xué)娛兼?zhèn)涞恼嫫炫炂桨鍁ivo Pad5正式發(fā)布
- 多彩小直屏燃爆夏季!vivo S30系列正式發(fā)布
- 首批適配Android 16操作系統(tǒng),vivo引領(lǐng)新一輪系統(tǒng)革新
- vivo專家王瑞鑫榮獲3GPP卓越獎,vivo通信技術(shù)實力“出圈”
- 聲聲有息 科技普惠:vivo攜手殘基會啟動“科技助殘公益項目征集”
- vivo開啟3000萬元科技助殘專項行動,賦能無障礙生活
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案