OPPO在CVPR2022取得佳績:7篇論文入選、8項挑戰(zhàn)賽獲獎
2022-06-23 21:24:51AI云資訊711
2022年6月23日,深圳——年度計算機視覺頂級會議CVPR(Conference on Computer Vision and Pattern Recognition國際計算機視覺與模式識別會議)在新奧爾良落下帷幕。今年,OPPO有七篇論文成功入選,躋身一流科技廠商之列。同時在廣受關(guān)注的挑戰(zhàn)賽上,OPPO也取得了三項第一、一項第二、四項第三的良好成績。
隨著深度學習逐步成熟化規(guī)?;?,人工智能技術(shù)從“感知智能”向“認知智能”邁進。AI除了“看到”或“聽到”,開始初步逐步具備像人類一樣的思考能力。多模態(tài)融合、3D視覺智能技術(shù)、自動機器學習等正在成為人工智能領(lǐng)域的關(guān)鍵研-究熱點。OPPO在上述領(lǐng)域都均實現(xiàn)論文收錄,在AI關(guān)鍵學術(shù)領(lǐng)域取得創(chuàng)新突破。
OPPO 智能感知首席科學家郭彥東表示:“在2012年,為了圖像識別任務而設(shè)計的深度神經(jīng)網(wǎng)絡(luò)重新給人工智能的研究與應用注入了能量。從此,人工智能(AI)技術(shù)迎來了飛速發(fā)展的10年。在OPPO,我們持續(xù)推動人工智能完成像人一樣復雜的感知與認知行為。比如,從無標簽的海量數(shù)據(jù)中持續(xù)學習并遷移到下游具體任務,從幾個有限視角中完整的重建3D信息;更高級別的認知能力,比如對美的理解與創(chuàng)作;以及具有自主行為能力的“實體AI”(embodied AI),比如自動駕駛場景中的行為預測等。很高興OPPO繼2020年首次亮相后,在短短的3年內(nèi)就實現(xiàn)了7篇主會論文入選的好成績。未來,我們希望繼續(xù)向更基礎(chǔ)、更前沿的AI領(lǐng)域探索,推動AI的商用落地,讓創(chuàng)新科技更好地服務于人?!?
7篇論文獲得收錄,OPPO正在助力AI認知水平升級
本次CVPR2022上,OPPO共有7篇CVPR入選論文,涵蓋多模態(tài)信息交互、三維人體重建、個性化圖像美學評價、知識蒸餾等多個研究領(lǐng)域。
不同模態(tài)數(shù)據(jù)的特性各不相同,像文字、語言這樣的信息概括性極強,而圖像往往包含大量細節(jié)。在多模態(tài)數(shù)據(jù)下,能夠在模態(tài)間建立起有效交互對于AI來說是一件十分有挑戰(zhàn)性的事情。OPPO研究人員基于CLIP模型提出了全新CRIS框架,使得AI能夠更加細粒度地理解圖像與文本兩種模態(tài)的數(shù)據(jù)。即使輸入包含多重信息的文本描述,該框架也能夠準確聚焦到對應的圖像區(qū)域,顯示出強大的細粒度跨模態(tài)匹配能力。
當前,人類的智能和人工智能最重要的區(qū)別之一在于對于多模態(tài)信息的識別和理解。對于人類來說,我們往往可以同時理解文字和圖像,并將其有效關(guān)聯(lián)。但AI更多停留在識別階段,很難將不同模態(tài)的信息精準對應。本次OPPO提出的創(chuàng)新方法可以幫助人工智能在多模態(tài)理解上更進一步。未來,隨著相關(guān)技術(shù)的不斷發(fā)展,人工智能可以真的可以像科幻小說中描述的那樣,通過語言、聽覺、視覺等多重信息去認知真實世界,真正地成為人們最好的“幫手”。
同樣,在近期熱門的三維人體重建領(lǐng)域,OPPO研究院通過改進NeRF創(chuàng)新的動態(tài)角色建模方法,在業(yè)界首次實現(xiàn)了自動為寬松著裝人體創(chuàng)建數(shù)字分身的工作。該建模方法僅通過分析攝像頭所拍攝的RGB視頻,就可以1:1精準還原人物動態(tài)細節(jié),甚至包括衣服細小logo或紋理細節(jié)。衣服的建模還原一直是業(yè)界挑戰(zhàn)較大的領(lǐng)域之一,因為人體姿態(tài)發(fā)生變化的同時衣服物料的形變非常復雜,從而導致AI難以解算像“裙擺”這樣的部位形變。此舉可有效降低三維人體重建的門檻,為在線虛擬試裝購物、AI健身乃至VR/AR虛擬世界的真正落地提供良好的技術(shù)基礎(chǔ)。
隨著AI圖像識別能力的逐漸成熟,如何讓AI具備圖像審美能力成為新的難題。AI的審美能力往往強關(guān)聯(lián)訓練所使用的數(shù)據(jù)和標注者的偏好,而人的審美往往是千人千面的,采用基于大數(shù)據(jù)的美學評價來為不同用戶服務,這可能會引發(fā)人們對于“審美歧視”的討論,造成不好的用戶體驗。因此,通過更精細化的數(shù)據(jù)和模型,準確捕捉不同用戶的審美差異的個性化美學評價應運而生。
對此,OPPO研究院聯(lián)合西安電子科技大學李雷達教授,開創(chuàng)性地提出了帶條件的PIAA算法(Conditional Personalized Image Aesthetics Assessment),首次從“用戶主觀偏好與圖像美學相互作用,如何產(chǎn)生個性化品味”角度出發(fā)對AI模型進行優(yōu)化。該算法可以基于不同用戶畫像信息實現(xiàn)個性化的審美評價,可以為用戶在相冊、相機、互聯(lián)網(wǎng)內(nèi)容推薦等場景中打造個性化體驗,具有廣闊的應用前景。
隨該算法一并提出的帶有豐富屬性標注的個性化美學評價數(shù)據(jù)集也已宣布開源,為業(yè)界在個性化美學評價領(lǐng)域的研究提供了有價值的研究數(shù)據(jù),目前該數(shù)據(jù)集已收到多家研究機構(gòu)及高校的關(guān)注和問詢。
此外,OPPO提出的多視圖三維語義平面重建技術(shù)能夠準確解析場景的三維平面結(jié)構(gòu),并預測地面、桌面、墻面等平面的語義標注,其效果明顯優(yōu)于當前主流單視圖重建架構(gòu)。而聯(lián)合清華大學提出的INS-Conv (INcremental Sparse Convolution),能達到更快及更準確的在線3D點云語義及實例分割推斷,該技術(shù)可以有效降低環(huán)境識別對于終端算力的要求,為全自動駕駛、虛擬現(xiàn)實這樣前沿技術(shù)的落地增加了可能。
斬獲NAS挑戰(zhàn)賽亞軍OPPO創(chuàng)新模型助力AI“輕量化”
在同期舉辦的挑戰(zhàn)賽中,OPPO也表現(xiàn)出色,在八大賽項中斬獲佳績。包括目前行業(yè)關(guān)注的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索技術(shù)(NAS)賽道、足球行為檢測(SoccerNet Action Spotting)賽道、足球回放定位(SoccerNet Replay Grounding)賽道、時序動作定位(ActivityNet temporal localization)賽道、大尺度視頻目標分割挑戰(zhàn)賽(The 4th Large-scale Video Object Segmentation Challenge)、ACDC挑戰(zhàn)賽(the ACDC Challenge 2022 on semantic segmentation in adverse visual conditions)和運動預測挑戰(zhàn)賽(WAD Argoverse2 Motion Forecasting)。
從手機攝影到無人駕駛,深度學習模型走進越來越多行業(yè)。但深度學習非常依賴大數(shù)據(jù)和大算力,學習成本高,這也給前沿AI技術(shù)的商用落地帶來了挑戰(zhàn)。神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索技術(shù)(NAS)可自動發(fā)掘神經(jīng)網(wǎng)絡(luò)的最優(yōu)架構(gòu),降低對人工經(jīng)驗和背景知識的依賴,讓AI也可以實現(xiàn)“自主學習”。在比賽中,OPPO研究人員通過優(yōu)化訓練超網(wǎng)過程中的模型參數(shù)遺忘及不公平的梯度下降問題,針對“繼承”超網(wǎng)參數(shù)的45000個子網(wǎng)絡(luò),有效地提高了子網(wǎng)絡(luò)在性能及性能排序上的一致性,最終取得了第二名的好成績。
NAS技術(shù)的發(fā)展使得研究人員只需訓練一個大的超網(wǎng)絡(luò),然后通過繼承超網(wǎng)參數(shù)方式低成本構(gòu)建預測器,實現(xiàn)網(wǎng)絡(luò)架構(gòu)自我學習,從而高效地獲得優(yōu)于專家設(shè)計的深度學習模型。該技術(shù)可適用于當前大部分人工智能算法,可以幫助AI技術(shù)在移動端設(shè)備上的應用,讓用戶體驗到AI技術(shù)快速落地帶來的好處。
值得一提的是,繼去年OPPO在足球行為分析(SoccerNet)賽道中取得動作定位(Action Spotting)和回放定位(Replay Grounding)雙項第二名后,今年OPPO再次取得回放定位(Replay Grounding)第一名和動作定位(Action Spotting)賽項第三。
在CVPR 2022上,OPPO還參加了三場高水準Workshop并發(fā)表演講。其中,在SLAM 研討會上,OPPO研究員鄧凡就如何在智能手機、AR/VR設(shè)備上運行實時vSLAM進行分享和討論。研究員李毅康則在移動人工智能研討會中發(fā)表了演講,提出無監(jiān)督的視頻-文本跨模態(tài)哈希方法——CLIP4Hashing,為移動設(shè)備上的跨模態(tài)搜索提供重要思路。李薇參加AICITY Workshop并提出了基于多視角的動作定位系統(tǒng),用來識別駕駛員行車時的異常行為。
以創(chuàng)新推動商用,OPPO希望盡早讓人們享受AI帶來的便利
今年是OPPO參加CVPR的第三年,OPPO在收錄論文數(shù)量及挑戰(zhàn)賽成績保持上升的同時,研究領(lǐng)域也從人臉識別等應用領(lǐng)域向更基礎(chǔ)的技術(shù)方向轉(zhuǎn)移。
快速突破的成果來源于OPPO在AI領(lǐng)域的不懈投入。自2015年起,OPPO在人工智能領(lǐng)域展開投入,成立相關(guān)研發(fā)團隊,聚焦語言語義、計算機視覺等領(lǐng)域。2020年初,OPPO研究院正式成立智能感知與交互研究院,進一步深化OPPO對人工智能前沿科技的探索。目前,OPPO在AI領(lǐng)域的全球?qū)@暾埑^2650件,廣泛覆蓋計算機視覺、語音技術(shù)、自然語言處理、機器學習等領(lǐng)域。
在“微笑前行”品牌使命的指引下,OPPO也在和業(yè)界伙伴一道,不斷推動人工智能(AI)技術(shù)從實驗室真正走向生活。2021年12月,OPPO發(fā)布了首款自研影像專用NPU——馬里亞納X,具備強大算力、能效比和計算速度,能夠讓AI算法的運行速度達到空前水平,為用戶解決手機長期難以解決的夜景視頻畫質(zhì)問題。此外,基于強大的底層AI能力,OPPO也發(fā)布了包括CybeReal全時空間計算AR應用、OPPO Air Glass、Omoji等創(chuàng)新產(chǎn)品及功能,希望盡早創(chuàng)造更真實的數(shù)字新世界,為用戶帶來現(xiàn)實物理世界與虛擬數(shù)字世界的融合體驗。
相關(guān)文章
- 通過行業(yè)最嚴格無水分久用流暢測試,OPPO A6系列依然流暢如初!
- OPPO錢包:數(shù)字科技浪潮中的便捷生活助手
- 唯一入圍AI手機產(chǎn)品!OPPO Find N5入選WAIC 2025“鎮(zhèn)館之寶”
- OPPO 持續(xù)賦能開發(fā)者,助力 Android 16 整體適配率超 98%
- 火山引擎×OPPO:促進技術(shù)與場景深度結(jié)合,助力智能終端加速AI進化
- OPPO向大眾汽車集團網(wǎng)聯(lián)汽車許可蜂窩通信標準必要專利
- 國補到手2379.15起,OPPO Reno14系列開售,實況照片玩法真的很香
- 光影與AI結(jié)合!OPPO Reno14系列發(fā)布 重新定義手機科技潮流新玩法
- 魯大師4月新機性能/流暢/AI榜:驍龍8至尊領(lǐng)先版首發(fā)性能登頂,OPPO流暢持續(xù)領(lǐng)跑
- 安卓表皇新品:小尺寸智能旗艦OPPO Watch X2 Mini
- OPPO Watch X2 Mini發(fā)布 京東已先人一步開啟搶購
- 天馬攜手OPPO Find X8s:以“好屏”定義旗艦顯示新高度
- OPPO Find X8 Ultra搭載一英寸超大傳感器,成就「夜色膚色皆出色」
- OPPO Find X8 Ultra 首發(fā)超晶態(tài)藍玻璃,光學革新鑄就夜拍美學新標桿
- OPPO ColorOS行業(yè)首家支持DeepSeek聯(lián)網(wǎng)識圖 ,已完成50+款機型升級覆蓋
- 超防水·超抗摔·超耐用:OPPO A5系列開啟千元機品質(zhì)革命
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
- 筑牢安全芯基石,紫光同芯無線充電鑒權(quán)芯片T9系列亮相2025(秋季)亞洲充電展
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案