金山云亮相LiveVideoStackCon2019 解析智能音視頻算法背后的技術實踐
2019-08-26 16:32:10AI云資訊683
不管是高清直播互動的興起,還是超高清視頻、VR視頻的爆發(fā),人們對于更清晰畫質(zhì)的追求、更優(yōu)良觀看體驗的探索,始終在不停演進。據(jù)預測,到 2022 年,超高清占視頻直播 IP 流量的百分比將高達 35%,這將會帶來帶寬成本的飛速飆漲,那么究竟如何在高畫質(zhì)、低成本之間尋找一種平衡?
在近日舉辦的多媒體技術峰會LiveVideoStackCon2019上,金山云技術總監(jiān)蔡媛發(fā)表了《集智高清-以低帶寬成本獲取高清畫質(zhì)體驗》的主題分享,為這一問題帶來了解決方案,能夠以低帶寬成本獲取高清畫質(zhì)體驗的云轉(zhuǎn)碼服務——集智高清。在演講中,蔡媛深刻詮釋了金山云集智高清在碼率節(jié)省上的重大突破,并分享了多種視覺AI及編碼技術,同時深入剖析集智高清的AI算法架構,包括如何使用全局去噪網(wǎng)絡及局部去噪網(wǎng)絡等深度學習算法修復并增強視頻畫質(zhì),并通過引出客觀評測視頻畫質(zhì)評測平臺KQoE,為與會者帶來了一場干貨滿滿的技術專題分享。

金山云技術總監(jiān)蔡媛在LiveVideoStackCon 2019發(fā)表演講
5G序幕開啟,AI加持構建極致云轉(zhuǎn)碼解決方案
近年來,隨著互聯(lián)網(wǎng)技術的飛速演進,4K高清、VR視頻、直播互動等更加多元化的音視頻形態(tài),對于網(wǎng)絡帶寬傳輸效率提出了更高挑戰(zhàn)。從1994年第一代視頻編碼標準MPEG-2推出,到2013年第三代標準HEVC/H.265 AVS2的升級,雖然壓縮效率每10年增長約一倍,然而帶寬的增長永遠趕不上業(yè)務的需要,更加高效的音視頻傳輸效率,始終是擺在音視頻行業(yè)技術從業(yè)者們面前的難題。
“金山云基于對用戶需求的深刻洞察,推出了能夠以低帶寬成本獲取高清畫質(zhì)體驗的云轉(zhuǎn)碼服務——集智高清,通過自研算法,整合AI、編碼、圖像處理等多種技術,融合深度神經(jīng)網(wǎng)絡對視頻畫面內(nèi)容進行感知,優(yōu)化主觀體驗和智能調(diào)節(jié)編碼,對視頻進行畫質(zhì)增強,提升視覺效果,適配更高清屏幕,帶來更好視覺感受的同時,還可幫助客戶節(jié)省50%視頻傳輸帶寬,廣泛適用于絕大部分視頻場景,”蔡媛介紹到,“通過對視頻進行內(nèi)容分類、質(zhì)量對比和內(nèi)容分割,匹配視頻處理工具包,滿足用戶對超清視頻畫質(zhì)和流暢播放體驗的追求,同時大幅降低視頻運營商的帶寬成本壓力?!?

金山云集智高清云轉(zhuǎn)碼服務架構示意圖
在內(nèi)容分類方面,通過識別網(wǎng)絡對視頻場景和復雜度進行兩層分類,適配更佳的畫質(zhì)提升和壓縮效果,目前已廣泛支持包括綜藝、游戲、秀場、影視、體育等視頻場景;在質(zhì)量對比方面,從色彩飽和度、對比度、噪聲、清晰度等角度,對輸入視頻的客觀質(zhì)量進行實時監(jiān)測和分析,并輸出質(zhì)量得分,作為視頻處理工具參數(shù)調(diào)節(jié)的參考;在內(nèi)容分割方面,通過ROI區(qū)域檢測,先將每幀的視頻內(nèi)容分層,再將視頻畫面的主體和背景根據(jù)人眼視覺特性做差異化處理,使得主體更加突出,背景更加純凈,將視頻內(nèi)容畫質(zhì)增強處理的更加精細化。最后,匹配金山云提供的AI深度學習視頻處理工具包,該工具包由超分辨率、去噪、去模糊、銳化、對比度增強等多個算法模塊組成,各處理工具可靈活組合,適用多種視頻損失,有效進行視頻畫質(zhì)增強。
為了更加直觀地展現(xiàn)圖像、視頻轉(zhuǎn)碼前后的效果,金山云推出了KQoE平臺,旨在為有圖像、視頻效果評測需求的客戶提供高效易用的評測平臺,以更專業(yè)的評測平臺能力提升圖像/視頻評測效率。
創(chuàng)新算法框架,助推服務端編碼技術優(yōu)化
為了滿足多樣化的視頻種類處理需求,集智高清的算法框架,主要由視頻分析器(Video Analyzer)以及圖像處理器(Image Processor)兩個模塊組成,在處理流程上,視頻分析器以視頻種類、視頻質(zhì)量、ROI區(qū)域進行計算,視頻處理器則會根據(jù)分析結(jié)果以及輸入的處理策略進行視頻預處理,然后再送入編碼器進行編碼,完成整個編碼過程。云轉(zhuǎn)碼的優(yōu)勢在于場景中有著足夠多的算力,相對于端上編碼,能夠很好地應對對處理性能的需求。
云轉(zhuǎn)碼方案中,編碼目標函數(shù)的優(yōu)化是其中的關鍵。“對于云轉(zhuǎn)碼來說,場景和采集端不同,其目標函數(shù)需要進行優(yōu)化。初級優(yōu)化即試圖利用網(wǎng)絡對失真圖像進行處理,嘗試恢復出原始圖像,但是這樣做往往容易造成過平滑,因此需要進一步對L2 loss進行優(yōu)化,”蔡媛介紹到,“對此,我們改進目標函數(shù)的思路是,除了L2 loss外,需要加入Perceptual loss和GAN中的判別器loss,通過調(diào)整來達到真實業(yè)務需求的最優(yōu)效果?!?

編碼目標函數(shù)效果示意圖
接下來,蔡媛重點介紹了圖像處理模塊中的去噪模塊,分別從針對背景大塊區(qū)域的全局去噪網(wǎng)絡和針對人臉區(qū)域的局部(人臉)去噪網(wǎng)絡兩方面展開進行了解讀?!叭秩ピ刖W(wǎng)絡需要保證網(wǎng)絡足夠輕量級,甚至達到1080p@25實時處理,考慮要讓模型適應不同類型、不同強度噪聲,我們最終基于Memory Network的理念設計了網(wǎng)絡模型的主干網(wǎng)絡,”蔡媛講到,“人臉在視頻中關注度很高,由于人臉的像素數(shù)遠小于整個視頻的分辨率,因此局部(人臉)去噪網(wǎng)絡的設計不需要為算法復雜度所限制。另外由于人臉存在很強的先驗知識,因此需要采用更加特殊的設計才能更完整的挖掘這些先驗知識。我們訓練了帶多尺度判別器的GAN版本,經(jīng)測試驗證,在修復人臉的基礎上,它能對繼續(xù)對人臉進行細節(jié)增強,進一步提升處理后的主觀效果?!?
全維度能力升級,構建面向未來的智能視頻云平臺
金山云集智高清致力于提供專業(yè)的云轉(zhuǎn)碼服務,以低帶寬成本獲取高清畫質(zhì)體驗,方案在易用性、可靠性和可擴展性方面具備獨特優(yōu)勢。通過提供易用的轉(zhuǎn)碼控制臺以及豐富的客戶端SDK、服務可用性不低于99.9%、可快速為用戶定制優(yōu)化場景等服務能力,幫助客戶極大降低成本,提升用戶觀看體驗。
圍繞人眼結(jié)構特性,金山云的集智高清產(chǎn)品正試圖將編碼、圖像處理和AI整合,基于深度神經(jīng)網(wǎng)絡的畫質(zhì)增強技術,對視頻內(nèi)容進行感知,明顯提升了主觀效果和客觀指標,帶來更好的視覺感受。

“我們希望集智高清能夠成為視頻行業(yè)的加速器,為客戶的業(yè)務運營和行業(yè)的技術發(fā)展貢獻力量,”蔡媛表示,金山云作為視頻云服務的領軍企業(yè),將持續(xù)投入技術研發(fā),通過更加高效的產(chǎn)品和解決方案,幫助客戶更好應對移動視頻日益復雜多樣的場景和需求,給終端用戶帶來更好的視覺感受。
相關文章
- 金山云Q2營收23.5億元 AI戰(zhàn)略激活業(yè)務增長新空間
- 金山云攜具身智能等多個AI創(chuàng)新解決方案亮相WAIC
- 金山云攜6大AI創(chuàng)新成果亮相WAIC
- 金山云正式發(fā)布金山政務AI一體機 AI賦能政務數(shù)智化開啟新篇章
- 金山云Q1營收19.7億元 AI持續(xù)釋放業(yè)務增長新動能
- 金山云接入Xiaomi MiMo、Qwen3系列模型
- 金山云出席數(shù)字產(chǎn)業(yè)集群專業(yè)工作會議 以云為基助力政企數(shù)智化轉(zhuǎn)型
- 金山云Q4 AI收入同比增長近500% 人工智能收入占比處行業(yè)領先地位
- 支持平臺部署!金山云完成基于國產(chǎn)芯片的DeepSeek滿血版適配
- 金山云完成階躍星辰最新兩款開源多模態(tài)大模型適配
- 金山云支持DeepSeek-R1/V3
- 金山云全面升級智算服務體系 開啟AI 2.0時代云計算發(fā)展新紀元
- 受益智算服務需求激增 金山云再獲市場青睞
- 以技術創(chuàng)新為驅(qū)動,持中立姿態(tài),金山云助力大模型發(fā)展落地 原創(chuàng)
- GenAI新時代,金山云以大模型助力者打開增量空間
- 金山云KDX行業(yè)DaaS平臺全面升級 助力垂直行業(yè)數(shù)智化發(fā)展
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計算”論壇圓滿召開——攜產(chǎn)界實踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機器人技能大賽在滬啟動,助推智能建造實戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機賦能中國打印
- 神眸榮獲快手“品牌標桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動AI應用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機場“AI繪空港”大賽完美收官,卓特視覺以技術賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案