中國電信AI頂會競賽及論文專題回顧系列之三
2024-01-10 11:16:31AI云資訊3767
2023年11月28日,中電信人工智能科技有限公司(以下簡稱:電信AI公司)成立。它是中國電信開展大數(shù)據(jù)及人工智能業(yè)務(wù)的科技型、能力型、平臺型專業(yè)公司。2023年,電信AI公司在全球21場頂級AI競賽中屢獲殊榮,申請專利100余項。同時,該公司在CVPR、ACM MM、ICCV等權(quán)威會議和期刊上發(fā)表了30余篇論文,充分展現(xiàn)了國資央企在人工智能領(lǐng)域的實力和決心。
該公司注冊資本為30億元,前身為中國電信集團的大數(shù)據(jù)和AI中心。作為一家專注于人工智能技術(shù)研發(fā)和應(yīng)用的公司,他們致力于核心技術(shù)的研究、前沿技術(shù)的探索以及產(chǎn)業(yè)空間的拓展,旨在成為百億級的人工智能服務(wù)提供商。在過去兩年里,該公司自主研發(fā)了星河AI算法倉賦能平臺、星云AI四級算力平臺以及星辰通用基礎(chǔ)大模型等一系列創(chuàng)新的成果。目前,公司員工規(guī)模超過800人,平均年齡僅31歲。其中,研發(fā)人員占比高達80%,且70%的員工來自國內(nèi)外知名互聯(lián)網(wǎng)企業(yè)和AI領(lǐng)軍企業(yè)。為了加速大模型時代的研發(fā)進程,公司擁有超過2500塊等效于A100的訓(xùn)練卡,并配備了300多名專職數(shù)據(jù)標注人員。此外,公司還與上海人工智能實驗室、西安交通大學(xué)、北京郵電大學(xué)、智源研究院等科研機構(gòu)緊密合作,結(jié)合中國電信6000萬視聯(lián)網(wǎng)和數(shù)億用戶場景,共同推動人工智能技術(shù)的創(chuàng)新和應(yīng)用。
本期介紹電信AI公司TeleAI團隊在CVPR 2023 AI CITY CHALLENGE頂會上取得的重大突破,獲得了Challenge Track 5: Detecting Violation of Helmet Rule for Motorcyclists賽道的冠軍。CVPR是計算機視覺領(lǐng)域的三大頂級會議之一,享有極高的業(yè)內(nèi)聲譽。該冠軍技術(shù)不僅在學(xué)術(shù)界獲得了認可,還在城市治理實際業(yè)務(wù)中取得了顯著的應(yīng)用效果,已經(jīng)落地多個項目。本文將深入介紹該團隊在本次挑戰(zhàn)中所采用的算法思路和解決方案,為CV領(lǐng)域的研究和應(yīng)用貢獻了有價值的經(jīng)驗和實踐。
CVPR 2023 AI CITY CHALLENGETrack 5: Detecting Violation of Helmet Rule for Motorcyclists冠軍技術(shù)分享。
【賽事概覽與團隊背景】
AI City Challenge由英偉達、亞馬遜、馬里蘭大學(xué)等發(fā)起,自2017年起,每年舉辦一次。該挑戰(zhàn)賽主要集中在智能交通相關(guān)的車流統(tǒng)計、車輛重識別、跨攝像頭跟蹤、異常事件分析等應(yīng)用場景,被譽為“智能交通視頻分析界的ImageNet競賽”。
由中國電信AI公司行人算法方向的成員組成的TeleAI團隊,參加了本次比賽。該團隊在計算機視覺技術(shù)這個研究方向深耕,積累了豐富的經(jīng)驗。他們的技術(shù)成果已在城市治理、交通治安等多個業(yè)務(wù)領(lǐng)域中廣泛應(yīng)用,持續(xù)服務(wù)海量的用戶。TeleAI團隊以本次CVPR 2023 AI CITY CHALLENGE的Detecting Violation of Helmet Rule for Motorcyclists賽道為契機,實現(xiàn)在智慧安防領(lǐng)域技術(shù)的自我突破。
1引言
檢測摩托車駕駛員和乘客未佩戴頭盔的違規(guī)行為是一項關(guān)鍵的計算機視覺任務(wù),對于保障摩托車行駛過程中的生命安全具有重要意義。這一異常事件檢測問題可視為目標檢測任務(wù),即識別圖像中摩托車駕駛員和乘客的位置以及判斷其是否佩戴頭盔。為解決這一問題,本文提出了Motorcycle Helmet Object Detection Framework(MHOD)。
首先,我們采用目標檢測網(wǎng)絡(luò)DETA來預(yù)測視頻中所有對象的位置和類別,并通過兩個模型的集成來提高準確性和魯棒性。鑒于乘客類別訓(xùn)練數(shù)據(jù)的稀缺性,我們設(shè)計了基于目標跟蹤的乘客召回模塊(PRM),顯著提升了乘客類別的召回率。最后,引入了類別細化模塊(CRM),結(jié)合視頻中的時間信息來校正類別。在AI City Challenge 2023 Track5中,我們提出的框架在挑戰(zhàn)的公共排行榜上取得了顯著的成績。
2賽題介紹和難點
在不同的光照條件和攝像機角度下精確檢測是否佩戴頭盔是一項具有挑戰(zhàn)性的任務(wù)。首先,在交通監(jiān)控系統(tǒng)中,攝像頭通常安裝在相對較高的位置,導(dǎo)致視頻分辨率較低。此外,如圖1所示,光照、天氣、模糊等因素也會增加識別的難度。為了克服這些復(fù)雜場景并提高模型的魯棒性,我們采用了模型集成[4]的策略,詳細內(nèi)容將在第3.2節(jié)中進行描述。
如表1所示,我們對訓(xùn)練數(shù)據(jù)集中每個類別的目標數(shù)量進行了統(tǒng)計,發(fā)現(xiàn)存在嚴重的類別不平衡問題,尤其是在Passenger 2的數(shù)據(jù)相對較少。具體而言,Passenger 2僅出現(xiàn)在兩個視頻中,分別是005.mp4和091.mp4。我們在圖2中對樣本進行了可視化,觀察到在005.mp4中,Passenger 2是摩托車前面的一個小孩,這會使模型對該目標的識別變得非常困難。而在091.mp4中,Passenger 2位于摩托車后部,這種情況則相對符合我們的預(yù)期。
3解決方案
3.1 概述
MHOD框架的概述如圖3所示,通常包括三個主要部分。首先,我們采用集成技術(shù)來提高性能。在第二部分中,執(zhí)行乘客召回模塊(PRM),旨在提高乘客類別的召回率。第三部分是類別細化模塊(CRM),致力于減少同一軌跡中類別的切換次數(shù)。所有這些模塊和組件將在接下來的章節(jié)中進行詳細描述。
3.2模型集成
由于視頻場景的復(fù)雜變異性和低分辨率,我們提出的框架采用不同初始化過程的模型集成以提高性能。本文使用的目標檢測方法基于Transformer的DETA算法[13]。相較于最近的方法[3, 18],DETA展示了一種更為簡單的替代訓(xùn)練機制。這種替代機制在訓(xùn)練效率方面具有顯著優(yōu)勢,尤其是在短訓(xùn)練周期內(nèi)表現(xiàn)出色。我們從每個視頻幀中使用檢測模型獲取檢測到的對象的邊界框和相應(yīng)的置信度:
其中,bi是相應(yīng)的邊界框信息,fi是時間幀,v是視頻的幀長度。在獲取檢測結(jié)果后,我們得到一個邊界框b = (cls, xc, yc, w, h, s),其中cls是邊界框的類別ID,(xc, yc)是中心點的位置,(w, h)是邊界框的寬度和高度,s是置信度分數(shù)。我們進行非極大值抑制(nms)以過濾重疊的檢測框,這些框可能涉及相同的對象。因此,通過使用nms從兩個獨立模型提取的最終預(yù)測通常被表述如下:
其中,Z代表最終的預(yù)測。E1和E2都是在AI City Challenge數(shù)據(jù)集上微調(diào)的DETA模型。
3.3Passenger Recall Module 模塊
基于表1中呈現(xiàn)的訓(xùn)練集統(tǒng)計結(jié)果,Passenger 2的樣本數(shù)量極少。因此,我們采用后處理技術(shù)來優(yōu)化Passenger 2的檢測邊界框。我們使用在COCO數(shù)據(jù)集[9]上預(yù)訓(xùn)練的開源框架Detectron2 [17]來獲取人的邊界框集合P = {p1, p2, p3, · · · },其中p = {xc, yc, w, h, s, f}。從Z中獲取摩托車的邊界框集合M = {m1, m2, m3, · · · }。對于M中的每個mi,在滿足以下條件時,記錄與mi匹配的所有pj ∈ P:
其中,α是控制IoU大小的系數(shù),iou(x, y)表示邊界框x和y之間的交并比(IoU)。使用SORT [2]來預(yù)測人的邊界框的軌跡,并記錄人的運動方向,之后根據(jù)連續(xù)幀之間的相關(guān)性計算每個邊界框的運動方向,Passenger 2是軌跡方向上的最后一個人的邊界框。此外我們在訓(xùn)練集上訓(xùn)練一個分類網(wǎng)絡(luò),用于判斷Passenger 2是否佩戴頭盔。
3.4Category Refine Module 模塊
在視頻中,我們發(fā)現(xiàn)隨著非機動車輛駛出攝像頭的視野,模型預(yù)測的標簽會隨著目標逐漸變小而改變。受到跟蹤思想的啟發(fā),同一跟蹤 ID 的相應(yīng)框在運動過程中類別不應(yīng)該發(fā)生改變。SORT [2] 是一種典型的基于檢測的跟蹤方法。我們通過SORT獲得摩托車和行人的軌跡,計算該ID中所有幀的類別,當某個類別的頻率超過給定跟蹤ID的總檢測次數(shù)的50%時,我們將該ID上所有幀均改為該類別標簽。
4實驗結(jié)果
4.1評估指標
本次挑戰(zhàn)賽使用的評估指標是mAP,即所有目標類別上平均精度(Precision-Recall曲線下的面積)的均值。
4.2實驗細節(jié)
模型在AI City Challenge數(shù)據(jù)集上經(jīng)過8個epochs的微調(diào),使用Adam優(yōu)化器,學(xué)習(xí)率為5e-6,權(quán)重衰減為1e-4。在訓(xùn)練過程中,圖像的短邊尺度從[720, 768, 816, 864, 912, 960, 1008, 1056, 1104, 1152, 1200]中隨機選擇,而長邊不超過2000像素。在測試階段,短邊被固定為1200像素。模型加載了在Objects365 [16]數(shù)據(jù)集上預(yù)訓(xùn)練的參數(shù)。對于用于集成的兩個模型,它們在初始化階段的查詢方面有所不同,分別設(shè)置為300和900。
對于判斷是否戴頭盔的分類模型,采用了在ImageNet預(yù)訓(xùn)練的ResNet-18 [8],并在AI City Challenge數(shù)據(jù)集上進行微調(diào)。輸入分辨率為256×192,訓(xùn)練和測試數(shù)據(jù)集的比例為9:1。使用CosineAnealingLR的學(xué)習(xí)率衰減策略進行100個epochs的訓(xùn)練,學(xué)習(xí)率為0.04,權(quán)重衰減為5e-4。
4.3實驗結(jié)果
Table 2是消融實驗的結(jié)果。集成模型會比DETA的基線高17.14%。PRM模塊也會顯著提升算法效果。此外,我們對訓(xùn)練集中的090.mp4進行了可視化,可以看到第12幀(圖5a)中id為42的對象預(yù)測類別是DHelmet,但在的第24幀(圖5b)中,它被預(yù)測為P1NoHelmet,使用CRM策略可以將該錯誤預(yù)測修正為DHelmet。
所提出的方法在AI City Challenge 2023的Track5驗證集上進行評估。如表3所示,我們的方法取得0.8340的分數(shù)。
5結(jié)論
在本文中,我們提出了一種名為MHOD(Motorcycle Helmet Object Detection)的框架,旨在檢測騎摩托車者是否正確佩戴頭盔。MHOD模塊利用目標檢測網(wǎng)絡(luò)來預(yù)測視頻中所有目標的位置和類別。為了提高乘客類別的召回率,我們引入了乘客召回模塊(PRM)進行跟蹤細化,并通過類別細化模塊(CRM)來校正目標的類別。PRM是一個可擴展的模塊,主要針對Passenger 2進行召回,而未來可進一步發(fā)展適用于Passenger 1的策略,以提升框架的效果。我們在2023年AI City Challenge Track5的公共測試集上進行的實驗表明,我們的方法取得了0.8340的分數(shù),證明了該方法的有效性。
我們的優(yōu)異成績充分彰顯了團隊方法的卓越效能,成功地將實際業(yè)務(wù)中積淀的算法、技巧以及算法邏輯應(yīng)用到國際競技舞臺,實現(xiàn)了電信AI公司在智慧安防、城市治理領(lǐng)域的巨大突破。電信AI公司一貫堅守“技術(shù)源自業(yè)務(wù),服務(wù)于業(yè)務(wù)”的發(fā)展理念,將競賽視為檢驗和提升技術(shù)能力的至關(guān)重要平臺。積極參與競賽的過程中,我們持續(xù)優(yōu)化和完善技術(shù)方案,為客戶提供更高質(zhì)量的服務(wù),同時也為整個團隊成員提供了珍貴的學(xué)習(xí)和成長機會。這一過程不僅不斷提升了我們的競爭實力,也推動著整個團隊在不斷挑戰(zhàn)中邁向更加輝煌的發(fā)展。
相關(guān)文章
- 中國電信研究院、中興通訊、全球固定網(wǎng)絡(luò)創(chuàng)新聯(lián)盟聯(lián)合發(fā)布《高性能智算廣域網(wǎng)技術(shù)白皮書》,深耕AI技術(shù)創(chuàng)新
- 中國電信手機直連衛(wèi)星業(yè)務(wù)上市已兩周年
- 從 “紙上藍圖” 到 “實景畫卷”:2025服貿(mào)會首日,中國電信AI“黑科技”亮相首鋼園!
- 智惠千行百業(yè)!中國電信40余項數(shù)智成果亮相2025智博會
- 智云筑基,惠聚息壤 中國電信精彩亮相2025中國算力大會
- 中國電信欒曉維:云網(wǎng)智融,賦能百業(yè)
- 中國電信第二季度凈增5G用戶1581萬戶 累計達2.82億戶
- 星辰聚智·才啟未來:2025世界人工智能大會中國電信發(fā)布系列前沿能力及AI產(chǎn)品
- 中國電信汽車直連衛(wèi)星助力問界M9車主在無人區(qū)極端環(huán)境下及時脫困
- 2025中國互聯(lián)網(wǎng)大會|大模型安全發(fā)展論壇暨中國電信第五屆科技節(jié)·北京站成功舉辦
- “星辰智惠 共治共享”中國電信人工智能生態(tài)論壇成功舉辦
- 中國電信柯瑞文:星辰智惠 共治共享
- 中國電信聚焦四大根技術(shù)方向,強化七大戰(zhàn)略新興業(yè)務(wù)布局
- 榮耀與中國電信達成戰(zhàn)略合作 共筑AI終端生態(tài)新格局
- 中國電信美好家生態(tài)聯(lián)盟引領(lǐng)IPTV產(chǎn)業(yè)邁入3D視聽新時代
- 中國電信亮相“人工智能向善全球峰會”,以創(chuàng)新科技繪就AI向善新圖景
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案