百分點感知智能實驗室:計算機視覺理論和應用研究
2022-01-27 10:20:23AI云資訊1065
編者按:計算機視覺(ComputerVision,CV)是一門綜合性的學科,是極富挑戰(zhàn)性的重要研究領(lǐng)域,目前已經(jīng)吸引了來自各個學科的研究者參加到對它的研究之中。
本文中,百分點感知智能實驗室梳理了計算機視覺技術(shù)基本原理和發(fā)展歷程,針對其當前主要的研究方向及落地應用情況進行了深入剖析,并分享了百分點科技在該領(lǐng)域的技術(shù)研究和實踐成果。
一、概覽
計算機視覺(ComputerVision,CV)是人工智能的一個領(lǐng)域,它與語音識別、自然語言處理共同成為人工智能最重要的三個核心領(lǐng)域也是應用最廣泛的三個領(lǐng)域。計算機視覺使計算機和系統(tǒng)能夠從數(shù)字圖像、視頻和其他視覺輸入中獲取有意義的信息,并根據(jù)這些信息采取行動或提出建議。如果人工智能使計算機能夠思考,那么計算機視覺使它們能夠看到、觀察和理解。
計算機視覺的工作原理與人類視覺大致相同,只是人類具有領(lǐng)先優(yōu)勢。人類視覺具有上下文生命周期的優(yōu)勢,可以訓練如何區(qū)分對象,判斷它們有多遠、它們是否在移動,以及圖像中是否有問題等情況。計算機視覺訓練機器執(zhí)行這些功能,不是通過視網(wǎng)膜、視神經(jīng)和視覺皮層,而是用相機、數(shù)據(jù)和算法,能夠在更短的時間內(nèi)完成。因為經(jīng)過培訓以檢查產(chǎn)品或觀察生產(chǎn)資產(chǎn)的系統(tǒng)可以在一分鐘內(nèi)分析數(shù)千個產(chǎn)品或流程,發(fā)現(xiàn)不易察覺的缺陷或問題,所以它可以迅速超越人類的能力。
1.計算機視覺工作原理
計算機視覺需要大量數(shù)據(jù),它一遍又一遍地運行數(shù)據(jù)分析,直到辨別出區(qū)別并最終識別出圖像。例如,要訓練計算機識別咖啡杯,需要輸入大量咖啡杯圖像和類似咖啡杯的圖像來學習差異并識別咖啡杯?,F(xiàn)在一般使用深度學習中的卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)來完成這一點,也就是說最新的科研方向和應用落地絕大多數(shù)都是基于深度學習的計算機視覺。
CNN 通過將圖像分解為具有標簽或標簽的像素來幫助機器學習或深度學習模型“觀察”,使用標簽來執(zhí)行卷積(對兩個函數(shù)進行數(shù)學運算以產(chǎn)生第三個函數(shù))并對其“看到”的內(nèi)容進行預測。神經(jīng)網(wǎng)絡運行卷積并在一系列迭代中檢查其預測的準確性,直到預測開始成真,然后以類似于人類的方式識別或查看圖像。就像人類在遠處觀察圖像一樣,CNN 首先識別硬邊緣和簡單形狀,然后在運行其預測的迭代時填充信息。
2. 計算機視覺發(fā)展歷程
60多年來,科學家和工程師一直在努力開發(fā)讓機器查看和理解視覺數(shù)據(jù)的方法。實驗始于1959年,當時神經(jīng)生理學家向一只貓展示了一系列圖像,試圖將其大腦中的反應聯(lián)系起來。他們發(fā)現(xiàn)它首先對硬邊或線條做出反應,從科學上講,這意味著圖像處理從簡單的形狀開始,比如直邊。
大約在同一時期,第一個計算機圖像掃描技術(shù)被開發(fā)出來,使計算機能夠數(shù)字化和獲取圖像。1963年達到了另一個里程碑,當時計算機能夠?qū)⒍S圖像轉(zhuǎn)換為三維形式。在1960年代,人工智能作為一個學術(shù)研究領(lǐng)域出現(xiàn),這也標志著人工智能尋求解決人類視覺問題的開始。
1974年引入了光學字符識別 (OCR) 技術(shù),該技術(shù)可以識別以任何字體或字樣打印的文本。同樣,智能字符識別 (ICR) 可以使用神經(jīng)網(wǎng)絡破譯手寫文本。此后,OCR和ICR 進入文檔和發(fā)票處理、車牌識別、移動支付、機器翻譯等常見應用領(lǐng)域。
1982年,神經(jīng)科學家David Marr確定視覺是分層工作的,并引入了機器檢測邊緣、角落、曲線和類似基本形狀的算法。與此同時,計算機科學家Kunihiko Fukushima 開發(fā)了一個可以識別模式的細胞網(wǎng)絡。該網(wǎng)絡稱為Neocognitron,在神經(jīng)網(wǎng)絡中包含卷積層。
到2000年,研究的重點是物體識別,到2001年,第一個實時人臉識別應用出現(xiàn)。視覺數(shù)據(jù)集如何標記和注釋的標準化出現(xiàn)在2000年代。2010年,李飛飛所帶領(lǐng)的團隊為了提供一個非常全面、準確且標準化的可用于視覺對象識別的數(shù)據(jù)集創(chuàng)造出了ImageNet。它包含跨越一千個對象類別的數(shù)百萬個標記圖像,并以此數(shù)據(jù)集為基礎(chǔ)每年舉辦一次軟件比賽,即ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC),為當今使用的 CNN 和深度學習模型奠定了基礎(chǔ)。2012 年,多倫多大學的一個團隊將 CNN 輸入到圖像識別競賽中。該模型稱為 AlexNet,它是由Yann LeCun于1994年提出的Lenet-5衍變而來,顯著降低了圖像識別的錯誤率第二名TOP-5錯誤率為26.2%(沒有使用卷積神經(jīng)網(wǎng)絡),AlexNet獲得冠軍TOP-5錯誤率為15.3%。在這一突破之后,錯誤率下降到只有幾個百分點(到2015年分類任務錯誤率只有3.6%)。
二、計算機視覺主要研究方向
人類應用計算機視覺解決的最重要的問題是圖像分類、目標檢測和圖像分割,按難度遞增,其中圖像分割主要包含了語義分割、實例分割、全景分割。
其中圖像分類和目標檢測也是很多計算機視覺任務背后的基礎(chǔ),接下來將簡單地說明一下它們的運行原理。
(1)圖像分類運行原理
圖像分類的實現(xiàn)主要依靠基于深度學習的卷積神經(jīng)網(wǎng)絡。卷積神經(jīng)網(wǎng)絡是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(Feedforward Neural Networks,FNN),是深度學習的代表算法之一 。卷積神經(jīng)網(wǎng)絡具有表征學習(Representationlearning)能力,能夠按其階層結(jié)構(gòu)對輸入信息進行平移不變分類(Shift-invariantclassification),因此也被稱為“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(Shift-Invariant Artificial Neural Networks, SIANN)” 。
那么人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,ANN)又是什么呢,它是一種模仿生物神經(jīng)網(wǎng)絡(動物的中樞神經(jīng)系統(tǒng),特別是大腦)結(jié)構(gòu)和功能的教學模型或計算模型,用于對函數(shù)進行估計或近似
人工神經(jīng)網(wǎng)絡由大量的人工神經(jīng)元聯(lián)結(jié)進行計算,大多數(shù)情況下人工神經(jīng)網(wǎng)絡能在外界信息的基礎(chǔ)上改變內(nèi)部結(jié)構(gòu),是一種自適應系統(tǒng)。
典型的人工神經(jīng)網(wǎng)絡具有以下三個部分:
網(wǎng)絡結(jié)構(gòu):定義了網(wǎng)絡中的變量和它們的拓撲關(guān)系;
激活函數(shù):定義了神經(jīng)元如何根據(jù)其他神經(jīng)元的活動來改變自己的激勵值;
學習規(guī)則:定義了網(wǎng)絡中的權(quán)重如何隨著時間推進而調(diào)整。
輸入層
接收的是圖像的三維數(shù)組,數(shù)組的形狀大小為圖像寬度、圖像高度、圖層數(shù),數(shù)組的值為每一個圖像通道逐個像素點的像素值。
隱藏層主要包括卷積層、池化層和全連接層
卷積層(Convolutional Layer)的功能是對輸入數(shù)據(jù)進行特征提取,其內(nèi)部包含多個卷積核,組成卷積核的每個元素都對應一個權(quán)重系數(shù)和一個偏差量,類似于一個前饋神經(jīng)網(wǎng)絡的神經(jīng)元。卷積層內(nèi)每個神經(jīng)元都與前一層中位置接近的區(qū)域的多個神經(jīng)元相連,區(qū)域的大小取決于卷積核的大小,也稱作感受野,其含義可類比視覺皮層細胞的感受野。卷積核在工作時,會有規(guī)律地掃過輸入特征,在感受野內(nèi)對輸入特征做矩陣元素乘法求和并疊加偏差量。卷積層還包括卷積參數(shù)和激勵函數(shù),使用不同的參數(shù)或函數(shù),可以用來調(diào)節(jié)卷積層卷積后獲得的結(jié)果。
在卷積層進行特征提取后,輸出的特征圖會被傳遞至池化層(Pooling Layer)進行特征選擇和信息過濾。池化層包含預設定的池化函數(shù),其功能是將特征圖中單個點的結(jié)果替換為其相鄰區(qū)域的特征圖統(tǒng)計量,可降低圖像參數(shù),加快計算,防止過擬合。
卷積神經(jīng)網(wǎng)絡中的全連接層(Fully-connected Layer)等價于傳統(tǒng)前饋神經(jīng)網(wǎng)絡中的隱含層。全連接層位于卷積神經(jīng)網(wǎng)絡隱含層的最后部分,并只向其他全連接層傳遞信號。特征圖在全連接層中會失去空間拓撲結(jié)構(gòu),被展開為向量并通過激勵函數(shù)。在一些卷積神經(jīng)網(wǎng)絡中,全連接層的功能可由全局均值池化(Global Average Pooling)取代,全局均值池化會將特征圖每個通道的所有值取平均,可降低計算量,加快運行速度,防止過擬合。
輸出層
卷積神經(jīng)網(wǎng)絡中輸出層的上游通常是全連接層,因此其結(jié)構(gòu)和工作原理與傳統(tǒng)前饋神經(jīng)網(wǎng)絡中的輸出層相同。對于圖像分類問題,輸出層使用邏輯函數(shù)或歸一化指數(shù)函數(shù)(Softmax Function)輸出分類標簽。
三、計算機視覺前沿技術(shù)
隨著計算機視覺技術(shù)的不斷發(fā)展,除了圖像分類,目標檢測,圖像分割等主要方向外還有很多新的技術(shù)不斷產(chǎn)生,生成式對抗網(wǎng)絡(Generative Adversarial Networks,GAN)就是其中一個非常有代表性的技術(shù)。
GAN是一種深度學習模型。模型通過框架中(至少)兩個模塊:生成模型(Generative Model)和判別模型(Discriminative Model)的互相博弈學習產(chǎn)生相當好的輸出。原始 GAN 理論中,并不要求 G 和 D 都是神經(jīng)網(wǎng)絡,只需要是能擬合相應生成和判別的函數(shù)即可。但實用中一般均使用深度神經(jīng)網(wǎng)絡作為 G 和 D 。一個優(yōu)秀的GAN應用需要有良好的訓練方法,否則可能由于神經(jīng)網(wǎng)絡模型的自由性而導致輸出不理想。
GAN的基本原理其實非常簡單,這里以生成圖片為例進行說明。假設我們有兩個網(wǎng)絡,G(Generator)和D(Discriminator)。正如它的名字,它們的功能分別是:
G是一個生成圖片的網(wǎng)絡,它接收一個隨機的噪聲z,通過這個噪聲生成圖片,記做G(z)。
D是一個判別網(wǎng)絡,判別一張圖片是不是“真實的”。它的輸入?yún)?shù)是x,x代表一張圖片,輸出D(x)代表x為真實圖片的概率,如果為1,就代表100%是真實的圖片,而輸出為0,就代表不可能是真實的圖片。
在訓練過程中,生成網(wǎng)絡G的目標就是盡量生成真實的圖片去欺騙判別網(wǎng)絡D。而D的目標就是盡量把G生成的圖片和真實的圖片分別開來。這樣,G和D構(gòu)成了一個動態(tài)的“博弈過程”。
最后博弈的結(jié)果是什么?在最理想的狀態(tài)下,G可以生成足以“以假亂真”的圖片G(z)。對于D來說,它難以判定G生成的圖片究竟是不是真實的,因此D(G(z)) = 0.5。
這樣我們的目的就達成了:我們得到了一個生成式的模型G,它可以用來生成圖片。
四、計算機視覺落地應用
計算機視覺的應用范圍與規(guī)模是目前人工智能應用中最為廣泛與普遍的,且早已深入日常生活與工作的多方面,典型的應用如生物特征識別中的人臉識別。
人臉識別已經(jīng)廣泛應用在人證比對、身份核驗、人臉支付、安防管控等各個領(lǐng)域。
這是一個典型的人臉識別示例,通過人臉識別技術(shù)檢測到圖像中的人臉位置并識別出每個人臉是誰。
現(xiàn)在主流的人臉識別技術(shù)多使用黃種人和白種人的面部特征進行模型開發(fā)和訓練,并且樣本中的光照條件良好,因此可以從圖片中較好的識別和分析黃種人和白種人的人臉,但是,由于深膚色(如黑人)人臉圖像的紋理特征較不明顯,并且反光較強,因此現(xiàn)有的人臉識別方法對深膚色人臉的識別和分析存在缺陷,尤其無法應對中偏重黑人人臉光照不佳的情況,不能在視頻和照片中很好的識別和分析深膚色人臉,也就是說,現(xiàn)有的人臉識別方法很難對深膚色人臉的特征進行有效分析和提取,從而導致對深膚色人臉的識別準確率較低。
百分點科技采用了創(chuàng)新的方法,如增加拉普拉斯變換融合到圖像圖層等,采用基于深度學習的圖像識別技術(shù)較好地解決了深膚色人種人臉識別的問題。具體主要流程如下:
(1)人臉檢測
人臉檢測和關(guān)鍵點檢測步驟采用了級聯(lián)結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡,可以適應環(huán)境變化和人臉不全等問題,且具有較快的檢測速度。
該方法規(guī)避了傳統(tǒng)方法劣勢的同時,兼具時間和性能兩個優(yōu)勢。一張圖片中絕大部分區(qū)域容易區(qū)分出為非人臉區(qū)域,只有少部分區(qū)域包含人臉和難以區(qū)分的非人臉區(qū)域。為加快檢測速度,我們設計使用三級分類器,使得性能逐級提高。
一般算法中只包含一個回歸器,如果候選框與真實人臉框相差較大,則無法進行有效的回歸。我們使用多級回歸器,每一級回歸器皆可讓結(jié)構(gòu)更接近真實人臉框,在多級回歸后結(jié)果更準確。
為實現(xiàn)對人臉/非人臉分類、人臉框回歸、人臉關(guān)鍵點回歸等預測,我們設計出基于多任務的深度學習模型。多任務學習提升了各個子任務的性能,達到一加一大于二的效果。在實現(xiàn)多任務共享深度學習模型參數(shù)的同時,較大地減少模型運算量,大幅提高人臉檢測速度。
(2)人臉識別
特征提取步驟采用了深層次的殘差卷積神經(jīng)網(wǎng)絡,且具有優(yōu)化的損失函數(shù),對比傳統(tǒng)方法可以更快更好的提取人臉特征,增加類間距,減少類內(nèi)距,獲得更好的人臉識別效果。
該技術(shù)是在殘差卷積神經(jīng)網(wǎng)絡的基礎(chǔ)上,增加了更多的 Shortcut 網(wǎng)絡連接與Highway 卷積層連接,保證了特征生成網(wǎng)絡中能夠兼具挖掘出人臉樣本圖像中的淺層與深層紋理特征,并將多重紋理特征進行組合,生成可分性更強的人臉特征,增強人臉識別準確率。同時在特征生成網(wǎng)絡中加入了多尺度融合機制,在卷積層中加入多尺度視覺感受,保證了同一人在多方位圖片中的人臉特征空間距離接近,有效提升同一分類的圖像產(chǎn)生更好的聚類,進而提高人臉識別準確率。
針對不同膚色人種的人臉識別,尤其是深膚色人種,我們使用提取紋理通過對原始人臉圖像進行拉普拉斯變換后得到的變換人臉圖像描述人臉圖像中的紋理強度,因此,由該原始人臉圖像及該變換人臉圖像進行拼接后得到的該四通道人臉圖像,相比較于該原始人臉圖像來說人臉紋理特征較明顯,這樣在基于深膚色人臉的該四通道人臉圖像進行特征提取時,可以更高效地獲取到人臉圖像的紋理特征,進而可以提高對深膚色人臉識別的準確率。
總結(jié)
如今,計算機視覺已經(jīng)廣泛應用于人們?nèi)粘I畹谋姸鄨鼍爸?。隨著深度學習的飛速發(fā)展,計算機視覺融合了圖像分類、目標檢測、圖像分割等技術(shù),已在工業(yè)視覺檢測、醫(yī)療影像分析、自動駕駛等多個領(lǐng)域落地應用,為各行各業(yè)捕捉和分析更多信息。
百分點科技在計算機視覺領(lǐng)域有著一定的研究和技術(shù)積累,并在人臉識別、文字識別、圖像及視頻智能分析等方面已經(jīng)取得了不錯的成績,目前已在智慧園區(qū)、公共區(qū)域重點人員預警、車輛軌跡分析、河流水域智能監(jiān)控、智能視頻分析等多個場景中落地應用。未來,我們將加大力度,繼續(xù)深入研究,進一步推動計算機視覺技術(shù)的發(fā)展,更好地為客戶提供服務。
相關(guān)文章
- 費率再降0.3個百分點!海爾智家:持續(xù)轉(zhuǎn)型,持續(xù)見效
- 海爾智家三季報費率優(yōu)化0.3個百分點
- 百分點科技在共建“一帶一路”中的實踐
- 百分點科技&IDC聯(lián)合發(fā)布數(shù)據(jù)科學基礎(chǔ)平臺白皮書
- 聚焦數(shù)智化轉(zhuǎn)型 百分點科技2023數(shù)據(jù)科學峰會即將舉辦
- 百分點科技聯(lián)合召開《中國應急管理發(fā)展報告(2022)》新書發(fā)布會
- 百分點科技榮獲“上合國家軟件產(chǎn)業(yè)國際合作優(yōu)秀案例獎”
- 百分點科技數(shù)據(jù)科學產(chǎn)教融合計劃繼續(xù)擴大招募
- IDC發(fā)布中國智慧應急報告 大數(shù)據(jù)與人工智能市場百分點科技第二
- 2022年消費維權(quán)重點曝光行業(yè)有哪些 百分點科技聯(lián)合數(shù)據(jù)猿發(fā)布預測報告
- 百分點科技:基于計算機視覺的語義分割技術(shù)如何在水域監(jiān)控上發(fā)揮作用
- 8個月大增6.9個百分點,榮耀筆記本成2021中國輕薄本市場增速最快品牌
- 領(lǐng)先當前國際最優(yōu)水平10.2個絕對百分點 這家企業(yè)再獲“中國智能科學技術(shù)最高獎”
- 百分點感知智能實驗室:計算機視覺理論和應用研究
- 百分點科技:聲紋識別技術(shù)發(fā)展及未來趨勢研究
- 百分點科技:基于NL2SQL的問答技術(shù)與實踐
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案