CVPR 2024:中科視語領(lǐng)跑工業(yè)大模型,工業(yè)混合專家模型再奪桂冠
2024-07-05 12:47:42AI云資訊70302
近日,在全球權(quán)威的CVPR2024視覺異常檢測和創(chuàng)新性檢測挑戰(zhàn)賽中,中科視語AI團隊提交的“少量樣本異常檢測使用專家混合模型”以0.818的出色成績,從全球17個國家和地區(qū),百余支頂尖AI團隊中脫穎而出,摘下桂冠。這再次展現(xiàn)了中科視語在工業(yè)大模型領(lǐng)域的雄厚實力。
隨著大模型技術(shù)的發(fā)展,技術(shù)先進性和性能卓越性的要求更加苛刻,中科視語持續(xù)堅定、專注投入大模型研發(fā),深入磨煉“內(nèi)功”,建立技術(shù)壁壘,夯實技術(shù)優(yōu)勢,正是憑借中科視語深厚的技術(shù)積淀和長期積累的市場經(jīng)驗,視語坤川工業(yè)大模型核心技術(shù)連續(xù)多次取得國際領(lǐng)先的成果。本次獲獎,是繼登頂2019 VideoNet視頻內(nèi)容識別挑戰(zhàn)賽、2022道路損壞檢測世界競賽桂冠后的又一里程碑,這標(biāo)志著中科視語在少樣本邏輯/結(jié)構(gòu)異常檢測技術(shù)上取得了新的突破。也正是憑借持續(xù)的技術(shù)革新,中科視語在工業(yè)大模型領(lǐng)域積累了顯著的競爭優(yōu)勢。
2024計算機視覺領(lǐng)域的頂級學(xué)術(shù)會議CVPR,是由IEEE計算機協(xié)會和計算機視覺基金會(Computer Vision Foundation,CVF)共同主辦,是一年一度的全球計算機視覺領(lǐng)域與模式識別領(lǐng)域最頂尖的學(xué)術(shù)會議。其與ECCV(European Conference on Computer Vision)、ICCV(IEEE/CVF International Conference on Computer Vision)一起并稱為計算機視覺領(lǐng)域的三大最高級別的頂級會議。
面對日益激烈的市場競爭和不斷變化的技術(shù)環(huán)境,中科視語始終保持前瞻性思維和創(chuàng)新精神。為了高效節(jié)約成本并提高效率,我們持續(xù)更新迭代,在xx的基礎(chǔ)上,采用了前沿的Mixture of Experts(MoE)架構(gòu)。MoE架構(gòu)的核心優(yōu)勢是旨在通過模塊化的方式降低更多的成本,實現(xiàn)更大的推理規(guī)模和更快的推理速度。這一創(chuàng)新架構(gòu)使我們在市場化競爭中更具優(yōu)勢。
MoE架構(gòu)將復(fù)雜任務(wù)分解為多個子任務(wù),由不同的“專家”模塊并行處理。這種分工合作的方式不僅提高了處理效率,還實現(xiàn)了更精準(zhǔn)的模型預(yù)測。通過降低冗余計算和資源消耗,我們能夠以更低的成本實現(xiàn)更高的性能,從而在市場上形成更有優(yōu)勢的競爭地位。
圖 1 中科視語AI團隊斬獲少樣本邏輯/結(jié)構(gòu)異常檢測賽道(VAND 2.0)賽道第一名
少樣本工業(yè)異常檢測比賽VAND2.0
從飛機火車到螺絲螺母,工業(yè)產(chǎn)品在我們的生活中無處不在。為了保證這些產(chǎn)品能夠正常發(fā)揮其功能,避免安全事故,在生產(chǎn)過程中進行異常檢測是極為必要的。近年來,隨著計算機視覺技術(shù)的飛速發(fā)展,基于深度學(xué)習(xí)的工業(yè)異常檢測方法層出不窮,成為學(xué)術(shù)和工業(yè)界的研究熱點。因此,CVPR會議連續(xù)兩年舉辦VAND挑戰(zhàn)賽,鼓勵研究者進一步探索工業(yè)異常檢測的有效方法。
本次VAND比賽分為兩個賽道:
1.Adapt & Detect: Robust Anomaly Detection in Real-World Applications
2. VLM Anomaly Challenge: Few-Shot Learning for Logical and Structural Detection
研究團隊參加的是第二個賽道,重點研究基于多模態(tài)模型的少樣本邏輯和結(jié)構(gòu)異常檢測方法。比賽使用的數(shù)據(jù)集將常見的異常分為結(jié)構(gòu)異常和邏輯異常兩類。結(jié)構(gòu)異常指的是諸如破損、劃痕這種在正常樣本上不會出現(xiàn)的異常情況;邏輯異常則指正常物品的錯誤組合。例如,每個塑料袋中應(yīng)該包含一長一短兩個螺絲釘、兩個螺母、兩個墊片。然而,在邏輯異常樣本中,可能包含三個螺母,這類異常難以通過簡單比對來判斷,需要使用新的異常檢測方式。
此外,賽道二在少樣本設(shè)置下進行異常檢測,即要求模型在訓(xùn)練期間從未見過來自測試數(shù)據(jù)集中的任何正常樣本,只在推理期間提供少量正常樣本以供參考,這要求方法具有較高的遷移能力。
圖 2 正常樣本、結(jié)構(gòu)異常和邏輯異常示意圖
圖 3 研究團隊在 CVPR 2024 的演講匯報
圖 4 研究團隊在 CVPR 2024 的展示海報
基于混合專家模型的少樣本異常檢測方法AnomalyMoE
為了高效檢測出不同類別的異常,研究團隊提出了混合專家模型AnomalyMoE,充分發(fā)揮不同類型的異常檢測方法的優(yōu)勢,使用 4 個不同的異常檢測專家模型:圖文異常檢測專家模型,全局異常檢測專家模型,子部分異常檢測專家模型,圖像塊異常檢測專家模型,并結(jié)合這四個專家模型的打分結(jié)果以得到最后的異常分數(shù)。
圖 5 AnomalyMoE 結(jié)構(gòu)圖
圖文異常檢測專家模型FiLo
圖文異常檢測專家模型方面,研究團隊主要使用了自己之前的工作FiLo [1],F(xiàn)iLo 創(chuàng)新性地使用大語言模型來為每一類物品生成其可能出現(xiàn)的異常種類,并使用可學(xué)習(xí)的文本向量來取代人工編寫的文本模板,減少了工作量,提高了異常檢測性能,并能夠通過與圖像特征最相似的文本描述內(nèi)容來判斷樣品上的具體異常類型,提高了模型決策的可解釋性。
全局異常檢測專家模型
全局異常檢測方面,研究團隊使用視覺-文本多模態(tài)大模型CLIP提取圖像全局特征,將測試樣本的全局特征與少量正常樣本的全局特征進行比較,根據(jù)與正常樣本的相似度來判斷圖像中是否有異常。圖文異常檢測專家模型和全局異常檢測專家模型在檢測全局邏輯異常方面具有明顯優(yōu)勢。
子部分異常檢測專家模型
通過將圖像分為多個子部分,異常檢測方法能夠方便統(tǒng)計每個子部分中的面積、數(shù)量、顏色,從而方便判斷樣本中的每個部分是否為異常。研究團隊使用子部分異常檢測專家模型,通過 DINO提取特征再聚類的方式得到每一個子部分的掩碼,然后進行檢測。子部分異常檢測專家模型對于局部邏輯異常,如上文提到的螺母的新增、缺失等,具有良好的檢測效果。
圖像塊異常檢測專家模型AnomalyGPT
圖像塊異常檢測專家模型通過比較測試圖像的每個圖像塊和正常圖像的每個圖像塊的內(nèi)容,判斷每個圖像塊是否為異常。在圖像塊異常檢測專家模型的實現(xiàn)上,研究團隊主要使用了他們在 AAAI 2024上發(fā)表的方法 AnomalyGPT [2],使用大語言模型實現(xiàn)工業(yè)異常檢測,在少樣本異常檢測方面具有顯著效果。
MoE架構(gòu)的引入是中科視語技術(shù)創(chuàng)新之路上的又一重要里程碑。它不僅體現(xiàn)了我們對技術(shù)進步的不懈追求,也展示了我們在實現(xiàn)技術(shù)可持續(xù)發(fā)展和落地方面的堅定決心。未來,我們將繼續(xù)探索和利用前沿技術(shù),為客戶提供更優(yōu)質(zhì)的服務(wù),為社會創(chuàng)造更多的價值。
參考文獻:
[1]Gu, Z., Zhu, B., Zhu, G., Chen, Y., Li, H., Tang, M., & Wang, J. (2024). FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization. arXiv preprint arXiv:2404.13671.
[2]Gu, Z., Zhu, B., Zhu, G., Chen, Y., Tang, M., & Wang, J. (2024, March). Anomalygpt: Detecting industrial anomalies using large vision-language models. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 38, No. 3, pp.1932-1940).
相關(guān)文章
- 銳捷網(wǎng)絡(luò)閃耀CVPR 2024,外觀異常檢測方案斬獲世界認可!
- Nullmax紐勱3D目標(biāo)檢測新研究成果入選CVPR 2024!
- 睿云聯(lián)AI團隊在計算機視覺頂會CVPR人臉防欺詐競賽中斬獲亞軍
- 商湯科技聯(lián)合團隊獲CVPR最佳論文,推出首個“感知決策一體化”自動駕駛通用大模型
- CVPR NTIRE比賽雙冠,網(wǎng)易互娛AI Lab是這樣做的
- OPPO在CVPR2022取得佳績:7篇論文入選、8項挑戰(zhàn)賽獲獎
- 商湯科技71篇論文入選CVPR 2022創(chuàng)新高 引領(lǐng)AI技術(shù)與產(chǎn)業(yè)創(chuàng)新發(fā)展
- 特斯聯(lián)實現(xiàn)計算機視覺科研突破,多項研究成果入選CVPR、TPAMI等國際頂會頂刊
- 網(wǎng)易伏羲蟬聯(lián)CVPR兩項冠軍,AI助推《絕對演繹》首創(chuàng)“情緒遷移”玩
- 大華股份輕量化AI技術(shù)斬獲CVPR視覺頂會ISP賽道冠軍
- 中興通訊斬獲全球計算機視覺頂級會議CVPR 2021多項榮譽
- 騰訊優(yōu)圖榮獲CVPR2021 Image Matching Workshop雙賽道冠亞軍
- 無人車的眼睛、UP主的生產(chǎn)力工具,都藏在百度CVPR的這十個冠軍里
- CVPR2021:字節(jié)跳動14篇論文入選,多項競賽優(yōu)勢奪冠
- OPPO在國際人工智能會議CVPR 2021獲多項佳績,自研算法首次賦能智慧工廠
- CVPR 2021 | 騰訊優(yōu)圖20篇論文入選,含人臉識別、時序動作定位、視頻動作分割等領(lǐng)域
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
- 筑牢安全芯基石,紫光同芯無線充電鑒權(quán)芯片T9系列亮相2025(秋季)亞洲充電展
- 中國移動將支持eSIM全系產(chǎn)品,釋放成長新動能
- 晟聯(lián)科:以高速互連接口IP方案賦能Scale-up 生態(tài)
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案