特斯聯(lián)實現(xiàn)計算機視覺科研突破,多項研究成果入選CVPR、TPAMI等國際頂會頂刊
2022-05-09 15:23:37AI云資訊973
隨著京津冀、長三角、粵港澳大灣區(qū)、成渝等地啟動建設(shè)全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點,“東數(shù)西算”工程全面正式啟動,作為數(shù)據(jù)處理的核心新型基礎(chǔ)設(shè)施,人工智能、物聯(lián)網(wǎng)、云計算、區(qū)塊鏈等技術(shù)將迎來更為精細化的發(fā)展前景。近期,作為成渝地區(qū)東數(shù)西算的深度參與者,特斯聯(lián)對外公布了其計算機視覺(CV)領(lǐng)域的多個科研突破,并有8篇論文被CVPR、TPAMI等頂級國際學(xué)術(shù)會議和期刊收錄。
此次,特斯聯(lián)在 CV 領(lǐng)域的科研突破涵蓋了語義分割、圖像增強、顯著物體識別、遷移學(xué)習(xí)、行為識別,等方面。其中不少創(chuàng)新技術(shù)打破了現(xiàn)有技術(shù)上限,亦開發(fā)了數(shù)個性能更優(yōu)、識別更快、效率更高的模型,這些技術(shù)研究的應(yīng)用與推廣將會成為特斯聯(lián)賦能城市數(shù)字化、智能化的有力保障。
在機器視覺行業(yè)產(chǎn)業(yè)鏈中,如上游的光源、鏡頭、工業(yè)相機、圖像處理器、圖像采集卡等硬件,圖像處理軟件和底層算法等軟件系統(tǒng)會隨著機器視覺的迭代而快速發(fā)展,推進整個產(chǎn)業(yè)鏈的升級。全球知名AI專家、特斯聯(lián)集團首席科學(xué)家兼特斯聯(lián)國際總裁邵嶺博士及其團隊在該領(lǐng)域中提出的圖像和視頻的識別和學(xué)習(xí)各算法,極大縮短了訓(xùn)練和推理時間,從圖像識別提升、識別效率提升以及解決數(shù)據(jù)標注瓶頸三個方面,提升了整體視覺應(yīng)用效果:
1)圖像識別提升
在圖像識別方面,團隊的技術(shù)突破主要集中在算法層面,囊括背景消除模塊、圖像特征突出等。這些可以從圖像本質(zhì)入手,豐富圖像本身信息,去除多余噪點,為后續(xù)圖像識別提供高清的圖像數(shù)據(jù),是高效率識別的基礎(chǔ)。更有技術(shù)突破采用創(chuàng)新的手法,如加上聲音信息來協(xié)助識別,提高信息準確度。
在被收錄于頂會CVPR的《Learning Non-target Knowledge for Few-shot Semantic Segmentation》(《學(xué)習(xí)用于小樣本語義分割的非目標知識》)研究中,團隊從挖掘和排除非目標區(qū)域的新角度重新思考了少樣本語義分割,繼而提出了一個新穎的非目標區(qū)域消除(Non-target Region Eliminating)框架,其中包含了一個背景挖掘模塊(Background Mining Module)、一個背景消除模塊(Background Eliminating Module)和一個分散注意力的目標消除模塊(Distracting Objects Eliminating Module)以確保模型免受背景和分散注意力目標的干擾進而獲得準確的目標分割結(jié)果。不僅如此,該研究還提出一個原型對比學(xué)習(xí)(Prototypical Contrastive Learning)算法,通過精煉原型的嵌入特征以便更好的將目標對象與分散注意力的對象區(qū)分開來。
采用不同模塊的目標分割表現(xiàn)
在被收錄于TPAMI期刊的《Learning Enriched Features for Fast Image Restoration and Enhancement》(《學(xué)習(xí)用于快速圖像修復(fù)和增強的豐富特征》)研究中,團隊發(fā)現(xiàn)現(xiàn)實中的相機存在諸多物理限制,尤其在復(fù)雜的照明環(huán)境,采集的圖像經(jīng)常會出現(xiàn)不同程度的退化現(xiàn)象。比如智能手機相機的光圈很窄,傳感器很小,動態(tài)范圍也有限,因而經(jīng)常產(chǎn)生噪聲和低對比度的圖像。為此團隊提出了一種全新架構(gòu),其整體目標是通過整個網(wǎng)絡(luò)維持空間精確的高分辨率表征并從低分辨率表征中接收互補的上下文信息。 方法的核心囊括以下關(guān)鍵元素的多尺度殘差塊:(a) 用于提取多尺度特征的并行多分辨率卷積流,(b)跨多分辨率流的信息交換,(c)用于捕獲上下文信息的非局部注意力機制,(d)基于注意力的多尺度特征聚合。 該方法學(xué)習(xí)了一組豐富的特征,即結(jié)合了來自多個尺度的上下文信息,同時保留了高分辨率的空間細節(jié)。該技術(shù)可以解決現(xiàn)實中物理相機的缺陷,提高圖片質(zhì)量,也為后續(xù)識別提供良好的載體。
采用我們所提出方法(下排右二)生成的圖像在視覺上更接近于亮度和整體對比度的地面真實情況
團隊還就顯著目標檢測(SOD)數(shù)據(jù)集的嚴重設(shè)計偏差問題進行了研究,并收集了一個全新高質(zhì)量,目前最大的實例級SOD數(shù)據(jù)集- Salient Objects in Clutter(SOC),以縮小現(xiàn)有數(shù)據(jù)集與真實場景之間的差距。通過對203個代表性模型的回顧,和一個線上基準模型的維護,以及100個SOD模型全面的基準和性能評估,實現(xiàn)對SOD發(fā)展的動態(tài)追蹤以及更深入的理解。此外,團隊還設(shè)計了三個數(shù)據(jù)集增強策略,包括標簽平滑,隨機圖像增廣和基于自監(jiān)督學(xué)習(xí)的正則化技術(shù)以有效提高尖端模型的效果。該技術(shù)可以在復(fù)雜環(huán)境中讓目標突出,在信息混亂的圖像或者視頻中,準確抓取目標,為識別分析提供準確信息。此研究成果被收錄于TPAMI期刊中。
與實例級ILSO數(shù)據(jù)集(a)和MS-COCO數(shù)據(jù)集(c)相比,我們的SOC數(shù)據(jù)集(b&d)可標注精細、平滑的邊界
由布景或攝像機視點變化引起的域偏移下的行為識別問題也是團隊重點研究的方向。在收錄于頂會CVPR中的《Audio-Adaptive Activity Recognition Across Video Domains》(《跨視頻域的音頻自適應(yīng)行為識別》)的研究中,團隊提出了一種新穎的音頻自適應(yīng)編碼器,借助豐富的聲音信息來調(diào)整視覺特征以便模型在目標域中學(xué)習(xí)更多的判別特征。 它通過引入一種音頻注入識別器(Audio-infused Recognizer)以進一步消除特定域(domain-specific)的特征,并利用聲音中的域不變信息來實現(xiàn)有效的跨域跨模態(tài)的交互。此外,還引入了一個actor shift的新任務(wù),以及相應(yīng)的數(shù)據(jù)集,以在行為外觀發(fā)生巨大變化的情況下挑戰(zhàn)該模型。該技術(shù)加入聲音參數(shù)來識別物體活動,可以更加準確識別和分析出物體的行為,在智慧城市應(yīng)用中可以有更準確的分析結(jié)果。
當(dāng)同一活動的視覺相似性在不同領(lǐng)域間難以發(fā)現(xiàn)時,我們的模型(紅色)可以使用來自聲音的額外線索來提高識別精度
基于自注意力的網(wǎng)絡(luò)在圖像描述取得了巨大成功但仍存在距離不敏感和低秩的瓶頸。為解決這一問題,團隊在發(fā)表于IEEE Transactions on Multimedia期刊中的《Multi-Branch Distance-Sensitive Self-Attention Network for Image Captioning》(《用于圖像描述的多分支距離敏感自注意力網(wǎng)絡(luò)》)研究中,對自注意力機制從兩個方面進行了優(yōu)化:一個是距離敏感的自注意力方法(DSA),通過在SA建模過程中考慮圖像中目標之間的原始幾何距離,來提高圖像場景理解;另一個是多分支自注意力方法(MSA),以打破SA中存在的低秩瓶頸,并在可忽略的額外計算成本下提高MSA的表達能力。
我們的方法(下排)和標準Transformer模型(上排)生成的注意力可視化和圖像描述示例。一些準確的單詞用綠色標記,錯誤和不準確的單詞用紅色標記。我們的方法可得到更精確的描述。
2)識別效率提升
為提高識別效率,團隊研究出新的算法框架以及新的采樣器,可以顯著提高識別效率,大大縮短訓(xùn)練時間。在圖像識別中,快速的識別可以提高服務(wù)質(zhì)量,減少延遲,讓人們感受更智能的交互。
團隊發(fā)現(xiàn)大多數(shù)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的視頻物體分割(RVOS)方法采用基于單幀的空間粒度建模,而視覺表征的局限性容易導(dǎo)致視覺與語言匹配不佳?;诖?,團隊提出一種新穎的多級表征學(xué)習(xí)方法,通過探索視頻內(nèi)容的固有結(jié)構(gòu)來提供一組視覺嵌入,從而實現(xiàn)更有效的視覺-語言語義對齊。具體來說,它在視覺粒度方面嵌入了不同的視覺線索,包括視頻級別的多幀長時信息、幀級別的幀內(nèi)空間語義以及對象級別的增強對象感知特征。其次,它還引入了動態(tài)語義對齊(DSA),可以更緊湊、更有效地動態(tài)學(xué)習(xí)和匹配具有不同粒度視覺表征的語言語義。從實驗結(jié)果來看,該研究《Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation》(《具有語義對齊的多級表征學(xué)習(xí)用于參考視頻對象分割》)具有較高的推理速度,也因此被頂會CVPR收錄。
在視覺研究中,團隊發(fā)現(xiàn)業(yè)界最流行的隨機采樣方法,PK采樣器,對深度度量學(xué)習(xí)來說信息量不足且效率不高,為此提出一種可用于大規(guī)模深度度量學(xué)習(xí)的高效的小批量采樣方法,稱為圖采樣(Graph Sampling)。該模型的思想是在每個epoch開始時為所有類別構(gòu)建最近鄰關(guān)系圖。然后,每個小批量由隨機選擇的類別和其最近鄰組成以便學(xué)習(xí)信息豐富的示例。該方法顯著提高了重新識別率,大大縮短了訓(xùn)練時間。該技術(shù)為通用技術(shù),可用于圖像檢索、識別等。該技術(shù)主要目的是提升效率,這是在當(dāng)下高負荷多信息的智慧領(lǐng)域必不可少的技術(shù),快速分析識別能夠在一些圖像檢索和識別應(yīng)用快速滿足用戶需求。該研究《Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification》(《基于圖采樣的深度度量學(xué)習(xí)用于可泛化的行人重識別》)同樣收錄于今年的CVPR。
3)解決圖像標注問題
數(shù)據(jù)標注是一個重要的過程,傳統(tǒng)人工數(shù)據(jù)標注費時費力。團隊提出了一種新技術(shù)以更高效地解決背后的問題。該研究被收錄于今年的CVPR中,標題為《Category Contrast for Unsupervised Domain Adaptation in Visual Tasks》(《視覺任務(wù)中無監(jiān)督域適應(yīng)的類別對比》)。團隊提出了一種新的類別對比技術(shù)(CaCo),該技術(shù)在無監(jiān)督域適應(yīng)(UDA)任務(wù)的實例判別之上引入了語義先驗,可以有效地用于各種視覺UDA任務(wù)。該技術(shù)構(gòu)建了一個具有語義感知的字典,其中包含來自源域和目標域的樣本,每個目標樣本根據(jù)源域樣本的類別先驗分配到一個(偽)類別標簽,以便學(xué)習(xí)與UDA目標完全匹配的類別區(qū)分但域不變的表征。與當(dāng)下最先進的方法對比,簡單的CaCo技術(shù)可以實現(xiàn)更優(yōu)越的性能表現(xiàn),也可以成為現(xiàn)有UDA方法的補充,推廣到其他機器學(xué)習(xí)方法中去,如無監(jiān)督模型適應(yīng),開放/部分集適應(yīng)等。該技術(shù)解決了傳統(tǒng)監(jiān)督學(xué)習(xí)需要大量人工標注的問題,比現(xiàn)有技術(shù)擁有更高的效率。
相關(guān)文章
- 2025最大擬上市AI企業(yè)特斯聯(lián)加速出海,展現(xiàn)中國空間智能的全球之路
- 特斯聯(lián)攜生態(tài)伙伴共同助力余姚人工智能產(chǎn)業(yè)發(fā)展
- 特斯聯(lián)助力蔡甸謀劃智能產(chǎn)業(yè)發(fā)展新格局
- 特斯聯(lián)機器人:園區(qū)是機器人無法逾越的大山嗎
- 阿聯(lián)酋航空引入特斯聯(lián)機器人,簡化機場登機手續(xù)辦理
- 特斯聯(lián)攜手科知中心:打造數(shù)智轉(zhuǎn)型“德陽新模式”
- 特斯聯(lián)參與國家重點研發(fā)計劃重點專項獲批立項
- 特斯聯(lián)智慧照明控制系統(tǒng)賦能鄂州港智慧升級
- 特斯聯(lián)入選專精特新高質(zhì)量發(fā)展項目名單
- 特斯聯(lián)機器人與通州法院達成首期合作,共同打造智慧法院
- 特斯聯(lián)楊旸受邀出席O-RAN nGRG研究組會議
- 特斯聯(lián)楊旸:前沿技術(shù)與既有體系有效融合是技術(shù)轉(zhuǎn)化的關(guān)鍵
- 對話首席 | 特斯聯(lián)邵嶺:ChatGPT的現(xiàn)狀和商業(yè)化前景
- 特斯聯(lián)泰坦機器人成功入選“低速無人駕駛場景落地案例TOP50”
- 特斯聯(lián)機器人布局社區(qū)場景,打通消費界限
- 中國低速無人駕駛行業(yè)團標發(fā)布 特斯聯(lián)任參編單位
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
- 筑牢安全芯基石,紫光同芯無線充電鑒權(quán)芯片T9系列亮相2025(秋季)亞洲充電展
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案