VALSE 2018 涌多項頂級視覺科技 曠視科技首展商品識別技術(shù)
2018-04-26 14:26:52AI云資訊716
4月20日至22日,第八屆視覺與學(xué)習(xí)青年學(xué)者研討會(Vision And Learning SEminar/ VALSE 2018)在美麗的大連如期舉行。曠視科技Face++作為鉑金贊助商和CV產(chǎn)業(yè)界代表受邀赴會,向海內(nèi)外的專家、學(xué)者以及業(yè)界人士展示曠視研究院最新CV研究成果。
作為國內(nèi)最大規(guī)模的機(jī)器視覺學(xué)術(shù)盛會,VALSE 2018不僅吸引了超過3000名國內(nèi)外頂級專家、學(xué)者,刷新了歷屆參會熱度,在嘉賓量級、內(nèi)容質(zhì)量和學(xué)術(shù)高度方面同樣可圈可點。數(shù)十家CV代表企業(yè)的各式最新Demo和上百篇質(zhì)量上乘的墻報得以亮相,其中搶鮮展示了CVPR 2018收錄的979篇中的56篇;參會嘉賓大咖云集,西安電子科技大學(xué)“模式識別與智能系統(tǒng)”學(xué)科帶頭人高新波,ACM Fellow、IEEE Fellow、騰訊Robotics X實驗室負(fù)責(zé)人張正友,澳大利亞國立大學(xué)著名3D視覺重建和機(jī)器人SLAM學(xué)者 Hongdong Li,前微軟研究院資深研究員、京東AI研究院副院長梅濤等學(xué)界、業(yè)界頂級專家分別做了精彩紛呈的主題報告。
曠視科技Face++也向現(xiàn)場嘉賓做了精彩的學(xué)術(shù)分享,并匯報了曠視最新的學(xué)術(shù)工作進(jìn)展以促進(jìn)業(yè)界交流合作,共繪中國機(jī)器視覺事業(yè)藍(lán)圖。下文以3位曠視研究員的學(xué)術(shù)分享為主線,描繪曠視的VALSE 2018之行。
俞剛博士解讀人體姿態(tài)估計冠軍論文
2017 COCO 數(shù)據(jù)集競賽中,曠視科技的兩篇冠軍論文《MegDet:A Large Mini-Batch Object Detector》、《Cascaded Pyramid Network for Multi-Person Pose Estimation》,在擊敗谷歌、微軟等強(qiáng)勁對手之后,分別獲得了2017 COCO物體檢測和人體姿態(tài)估計第一名的矚目佳績。在VALSE 2018大會第一天的First VALSE Workshop on Methods and Technologies for Looking At People環(huán)節(jié)中,曠視資深研究員俞剛博士(曾帶隊參加2017 COCO競賽獲得物體檢測和人體姿態(tài)估計雙項第一)重點就第二篇論文作了主題報告。
曠視科技資深研究員俞剛博士
俞剛指出,多人姿態(tài)估計(Multi-Person Pose Estimation)是機(jī)器視覺領(lǐng)域繞不開的一個經(jīng)典問題;在傳統(tǒng)算法遭遇瓶頸之時,雖然卷積神經(jīng)網(wǎng)絡(luò)的再次崛起和快速迭代為解決這一問題帶來了新工具,但還是存在一些百啃不動的“硬骨頭”,比如關(guān)鍵點重疊、不可見以及復(fù)雜的背景。為此,曠視科技提出級聯(lián)金字塔網(wǎng)絡(luò)(Cascaded Pyramid Network/CPN),希望更好地解決關(guān)鍵點難以識別的問題。結(jié)果證明CPN非常奏效,在COCO test-dev數(shù)據(jù)集上平均精度(AP)達(dá)到73.0;在COCO test-challenge數(shù)據(jù)集上平均精度(AP)達(dá)到72.1,相較于2016年的最佳成績(60.5)有19%的提升,從而實現(xiàn)了當(dāng)前最優(yōu)水平。
那么曠視提出的CPN是如何實現(xiàn)的呢?俞剛說大體在于一個two-stage的模型架構(gòu):GlobalNet和RefineNet(見下圖),這是一種top-down pipeline,先通過檢測器檢測出圖像之中的人,再把每個人摳出來并做單人姿態(tài)估計,最后把結(jié)果整合到原圖上。CPN這種兩階段架構(gòu)設(shè)計的想法其實也不復(fù)雜,甚至可以說是相當(dāng)樸素直觀,來源于人是怎么識別人體關(guān)鍵點,即由特征金字塔網(wǎng)絡(luò)GlobalNet先識別出簡單關(guān)鍵點,再由(借助online hard keypoint mining loss的)RefineNet整合來自前者的特征表征以識別余下的困難關(guān)鍵點。這樣從易到難,層層推進(jìn),最終克服了關(guān)鍵點難以識別的問題。
級聯(lián)金字塔網(wǎng)絡(luò)(CPN)
這樣做下來,我們也發(fā)現(xiàn)了一些有趣的事情和結(jié)論。CPN的檢測框來自曠視研究院的Detection Team,如上所述曠視的MegDet以及Light-Head R-CNN取得了2017 COCO檢測第一,所以我們很自然地對兩者做了對比分析,結(jié)果發(fā)現(xiàn)檢測平均精度(Detection mAP)對關(guān)鍵點平均精度(Keypoint mAP)的影響在達(dá)到一定閾值(Det mAP41.1)之后微乎其微,即前者的顯著提升并不會促成后者的顯著提升。再比如使用Large batch,可以把CPN的mAP提升0.4-0.7個百分點,這說明除了物體檢測之外,Large batch同樣適用于關(guān)鍵點識別。
張祥雨博士解讀ShuffleNet v2
講臺之外,曠視的展臺也不容忽視,學(xué)術(shù)分享的精彩程度與講臺之上俞剛博士的分享相得益彰。在曠視展區(qū),曠視資深研究員張祥雨(2016 CVPR最佳論文ResNet作者之一)首次公開了獨(dú)家干貨ShuffleNet v2論文并親自解讀答疑,成為全場最受關(guān)注的焦點。ShuffleNet v2可謂是VALSE surprise,下面就扼要地為沒有機(jī)會到現(xiàn)場的小伙伴們分享一下曠視研究院ShuffleNet v2的工作思想。
ShuffleNet v2 @ VALSE 2018
不同于側(cè)重準(zhǔn)確度高效的(給定計算量下的準(zhǔn)確度)輕量級卷積神經(jīng)網(wǎng)絡(luò)(L-CNN),ShuffleNet v2 是一種側(cè)重執(zhí)行高效的(給定速度下的準(zhǔn)確度)的新架構(gòu),而相比于MobileNet v2和ShuffleNet v1,ShuffleNet v2同時在GPU和ARM上顯著提升了準(zhǔn)確度/執(zhí)行速度之間的權(quán)衡(參見下圖)。
準(zhǔn)確度/執(zhí)行速度之間的權(quán)衡
L-CNN 在實際的計算機(jī)視覺處理系統(tǒng)中扮演著舉足輕重的角色,其核心方向是開發(fā)出參數(shù)少、速度快、精度高的移動端神經(jīng)網(wǎng)絡(luò)。不同于以往一味地只追求準(zhǔn)確度,最近的L-CNN架構(gòu)設(shè)計逐漸轉(zhuǎn)向了如何在計算復(fù)雜度(FLOPs)一定的情況下,更加高效地實現(xiàn)高準(zhǔn)確度。但是,這依然不夠,因為FLOPs和實際運(yùn)行速度并不能劃等號,可見在FLOPs一定的情況下,執(zhí)行速度更快的架構(gòu),或者執(zhí)行高效的模型在實際應(yīng)用中同樣不可或缺。
然而,在L-CNN領(lǐng)域,執(zhí)行效率相比準(zhǔn)確度效率更加不受關(guān)注,雖然一些新近研究成功實現(xiàn)了兩者之間的權(quán)衡,但仍多是基于高效特征嵌入的啟發(fā)法,或者準(zhǔn)確度導(dǎo)向的模型搜索,是從準(zhǔn)確度效率的角度思考和解決問題。而對于現(xiàn)有組件或架構(gòu),執(zhí)行效率僅是錦上添花,一般無法在實際設(shè)備上達(dá)到最優(yōu)。我們發(fā)現(xiàn),隨著平臺和庫優(yōu)化越發(fā)復(fù)雜,準(zhǔn)確度導(dǎo)向的研究在當(dāng)前條件下推出實際的高效模型也越來越難。
張祥雨(右一)為大家現(xiàn)場講解ShuffleNet v2論文
ShuffleNet v2 則為L-CNN模型的設(shè)計提供了一種以執(zhí)行效率為導(dǎo)向的方法。首先,我們分析兩個當(dāng)前最優(yōu)L-CNN模型的核心組件,通過一系列可控的評估進(jìn)行相關(guān)操作的基準(zhǔn)測試,從中得出可在我們平臺上快速執(zhí)行的4個啟發(fā)式原則。正是基于上述原則,我們對ShuffleNet v1進(jìn)行改進(jìn),提出了ShuffleNet v2,在GPU和ARM上其準(zhǔn)確度/速度權(quán)衡明顯優(yōu)于同類模型。同時我們還評估了ShuffleNet v2在大型分類模型和物體檢測任務(wù)上的泛化能力。
魏秀參博士展示曠視最新商品識別技術(shù)
曠視展臺上的亮點還不止于此,除了ShuffleNet v2的良心披露與解讀,曠視同樣展示了不少產(chǎn)業(yè)前沿的應(yīng)用演示,比如時下大火的ReID(曠視在2017年發(fā)表的 AlignedReID 分別在Market1501和CUHK03測試集中使首位命中率達(dá)到了94.0%和96.1%,使機(jī)器首次在行人再識別問題上超越人類從而創(chuàng)下業(yè)界紀(jì)錄。)、視頻結(jié)構(gòu)化、人體關(guān)鍵點等,下面本文將重點介紹其中一個更新的研究成果——無人貨架和商品識別,它出自曠視科技南京研究院,其負(fù)責(zé)人魏秀參博士在展臺為觀眾們進(jìn)行了詳盡的解答。
魏秀參(左一)、俞剛(左二)、張祥雨(右一)
首先,曠視對于無人貨架和商品識別研究的基礎(chǔ)起源于曠視在AI +IoT產(chǎn)業(yè)進(jìn)深中的切實需要。近年來,人工智能加快了對傳統(tǒng)行業(yè)賦能的步伐,零售行業(yè)也不例外。零售中存在的眾多簡單重復(fù)且容易出錯的人工處理環(huán)節(jié),這是AI技術(shù)重塑零售行業(yè)、實現(xiàn)降本增效價值的最佳切入點。新零售作為一種AI改造和升級之后的全新零售業(yè)態(tài),為體量巨大的零售業(yè)開拓了一片機(jī)遇和挑戰(zhàn)并存的新戰(zhàn)場。
曠視南京研究院這次在VALSE 2018上亮相的新零售Demo重點展示了自動理貨和取物識別兩大功能。理貨,即統(tǒng)計貨架上商品SKU的類別和數(shù)量,是線下零售中必不可少的一環(huán)。自動理貨的目標(biāo)是替代傳統(tǒng)高價低效且易出錯的人工理貨方式,通過簡單的拍照上傳(或者本地處理)就能自動生成準(zhǔn)確的店內(nèi)審計報告,實現(xiàn)鋪貨率、排面數(shù)、貨架占有率、促銷執(zhí)行度各項指標(biāo)的全面智能化。取物識別,即自動識別顧客從貨架上拿走的商品,在無人超市和無人貨柜這樣的重量級的新零售產(chǎn)品中有著重要的應(yīng)用。目前,無人超市和無人貨柜的自動結(jié)算技術(shù)主要是基于電子標(biāo)簽(RFID)的。這一技術(shù)有兩個弊端:電子標(biāo)簽增加了額外的成本;結(jié)算時需要人工配合。如果使用純視覺的取物識別技術(shù)來結(jié)算則可以完美的解決以上問題,讓零售店面更“輕”、更“智能”,同時升級消費(fèi)體驗。
自2011年成立以來,VALSE人數(shù)的節(jié)節(jié)攀高從一定程度上反映了全國乃至全球計算機(jī)視覺技術(shù)的方興未艾之勢。通過VALSE,你可以一覽學(xué)術(shù)最前沿,收獲不同的視角,碰撞出啟發(fā)性的火花。
曠視科技在分享之余,也喚醒了自己的學(xué)術(shù)信息觸角,收獲頗多。作為一家以計算機(jī)視覺為核心技術(shù)的公司,曠視堅守技術(shù)信仰與價值務(wù)實,致力于打造螺旋上升的“算法-產(chǎn)品-數(shù)據(jù)”閉環(huán),實現(xiàn)軟硬一體化,最終目的是“為了人工智能終將創(chuàng)造的所有美好”;而要做到以上,離不開底層的學(xué)術(shù)創(chuàng)新和一流的學(xué)術(shù)研討氛圍,因此對于包括曠視在內(nèi)的所有CV公司來說,這是VALSE作為一個高水平、強(qiáng)互動的學(xué)術(shù)交流舞臺的最大意義之一。
相關(guān)文章
- 億咖通科技榮獲ISO 26262:2018 ASIL D功能安全流程認(rèn)證
- Apple TV 6曝光:搭載A12X 性能超iPad Pro 2018
- 虹軟科技披露招股意向書 2018年手機(jī)業(yè)務(wù)營收占比達(dá)96.57%
- 《2018年Android應(yīng)用安全白皮書》重磅發(fā)布:超98%Android應(yīng)用存有安全風(fēng)險
- 通鼎互聯(lián)2018年實現(xiàn)營收44.45億元 同比增長5.04%
- 影譜科技獲2018年度中國“AI商業(yè)化應(yīng)用”領(lǐng)域最具投資價值企業(yè)獎
- 透視光纖五巨頭的2018:“心照不宣”向光通信全產(chǎn)業(yè)鏈邁進(jìn)
- 英特爾刷新了2018年MacBook Pro中使用的H系列處理器
- 哈奇智能獲頒GPLP 2018年最具投資價值人工智能企業(yè)
- 四維圖新發(fā)布2018年年報:深入布局未來潛力市場,研發(fā)占營收比超50%
- 與BAT齊名彰顯實力,科大訊飛2018年表現(xiàn)驚艷令人稱贊
- 華為發(fā)布2018年財報:年收入首次突破1000億美元
- 曠視等中國人工智能企業(yè)2018年進(jìn)步巨大 技術(shù)亮眼成績喜人
- 小米電視2018年Q4登頂中國第一 AIoT進(jìn)入高速快車道
- 易觀智庫發(fā)布2018移動音頻報告,蜻蜓FM全場景生態(tài)助力音頻行業(yè)飛速發(fā)展
- 趣頭條2018四季度財報發(fā)布,將全面發(fā)力“趣頭條號”
人工智能企業(yè)
更多>>- 形態(tài)再革新 三星Galaxy S25 Edge給出輕薄旗艦終極答案
- 從超薄曲面屏到全場景AI,傳音手機(jī)推動前沿科技落地新興市場
- 神眸BC22+全新上市,重新定義“真無線”智能安防
- 華為《AIDC機(jī)房參考設(shè)計白皮書》重磅發(fā)布,賦能AI算力基礎(chǔ)設(shè)施邁向新高度
- 億萬克R322A7+服務(wù)器上新,可靠性封神!
- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計算”論壇圓滿召開——攜產(chǎn)界實踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗
人工智能產(chǎn)業(yè)
更多>>- AIDC產(chǎn)業(yè)發(fā)展大會隆重召開,開啟AIDC新紀(jì)元
- 絢星破局AI落地困境,四大業(yè)務(wù)重構(gòu)企業(yè)智能生產(chǎn)力新范式
- 騰訊啟動AI應(yīng)用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機(jī)場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
人工智能技術(shù)
更多>>- 騰訊開源框架 Kuikly 再升級!率先適配 “液態(tài)玻璃”,原生體驗更極致
- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能