AICon2021 | 騰訊優(yōu)圖鄢科:以AI技術(shù)助力內(nèi)容安全 促進互聯(lián)網(wǎng)環(huán)境健康發(fā)展
2021-12-01 12:12:48AI云資訊1432
近年來,伴隨著深度學習技術(shù)的成熟以及計算機算力的增長,人工智能技術(shù)在各行業(yè)的業(yè)務場景中實現(xiàn)了快速的普及和落地。在人工智能技術(shù)進一步落地實踐的背景下,將會為行業(yè)帶來什么樣的變革與技術(shù)創(chuàng)新,成為了大家共同關(guān)心的問題。
11月25至26日,以“AI商業(yè)化下的技術(shù)演進”為主要研討方向的AICon全球人工智能與機器學習技術(shù)大會北京站順利召開。據(jù)了解,AICon北京站設置了“人工智能前沿技術(shù)”、“計算機視覺實踐”、“智能金融技術(shù)與業(yè)務結(jié)合”、“認知智能的前沿探索”等14 個技術(shù)專題,并邀請了50余位行業(yè)資深專家,分享最新 AI 技術(shù)創(chuàng)新和應用實踐。
本次大會,騰訊優(yōu)圖實驗室內(nèi)容審核算法負責人鄢科受邀出席了“計算機視覺實踐”技術(shù)專題的研討,并通過《騰訊優(yōu)圖在視覺內(nèi)容理解領域的研究與實踐》的主題演講,分享了騰訊優(yōu)圖在內(nèi)容安全領域中的研究成果和應用實例,提供了技術(shù)創(chuàng)新和落地實踐的經(jīng)驗和思路。
01 視覺內(nèi)容理解在內(nèi)容安全領域中的技術(shù)特點和挑戰(zhàn)
隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡內(nèi)容不論是呈現(xiàn)形式還是信息體量都迎來了爆發(fā)式的增長。而在這些增長的背后,也隱藏著海量的色情、血腥等不良和有害信息,不僅危害互聯(lián)網(wǎng)平臺的內(nèi)容生態(tài),更可能導致安全問題。在內(nèi)容安全問題不斷加劇的背景下,AI、大數(shù)據(jù)等信息技術(shù)能夠輔助傳統(tǒng)人工審核,在內(nèi)容安全領域中發(fā)揮了重要作用。
基于此,騰訊優(yōu)圖依托在視覺AI技術(shù)上的研究成果,打造了包含涉黃、廣告、違法違規(guī)等在內(nèi)的、一站式內(nèi)容安全的解決方案。憑借支持一體化接入、需求定制化、詳實的標簽體系和自動化訓練平臺等優(yōu)勢,該解決方案能夠在社區(qū)、UGC、直播、點播等場景中輔助人審,從而提高內(nèi)容安全審核的效率。
而在推動視覺AI技術(shù)落地業(yè)務場景的過程中,騰訊優(yōu)圖也歸納和總結(jié)了視覺內(nèi)容理解的技術(shù)特點和挑戰(zhàn):
首先,內(nèi)容安全審核被廣泛應用在海內(nèi)外不同國家的各個行業(yè)和業(yè)務之中,不同業(yè)務的審核場景千差萬別;以游戲直播場景為例,該場景一般是二次元模態(tài)的游戲畫面,但由于海外手機的像素質(zhì)量和國內(nèi)不一樣,很多都是一些模糊不清低質(zhì)圖像,場景多樣嚴重考驗AI算法的穩(wěn)定性和泛化能力。
其次,針對于同一個內(nèi)容,不同客戶的標準定義差別很大,針對客戶需求制定能夠?qū)崿F(xiàn)全覆蓋的標簽和標準體系,對技術(shù)完備提出了較高的要求。
最后,多樣化的內(nèi)容審核場景也要求方案具備多標簽識別、目標檢測、畫面細粒度、OCR等技術(shù),無法通過一個簡單的技術(shù)點或是通用模型解決所有問題,對模型能力的精細化和快速優(yōu)化也提出了較高的要求。
02 騰訊優(yōu)圖實驗室在視覺內(nèi)容理解場景的主要研究方向
目前,騰訊優(yōu)圖在內(nèi)容安全領域主要的研究方向主要包括細粒度識別、多標簽識別、目標檢測、目標定位、對象供給、圖像描述等六個方向。
1)目標檢測:目標檢測在內(nèi)容理解領域中非常重要,包含通用物體檢測、特殊場景/商品檢測、遙感圖象、旋轉(zhuǎn)目標檢測等技術(shù)方向。其中,騰訊優(yōu)圖在旋轉(zhuǎn)目標檢測進行了深入研究,提出了DRN(動態(tài)修正網(wǎng)絡)來提升檢測效果的方法。
通過在FSM(特征選擇模塊)中設計自適應感受調(diào)整模塊的方式,模型能夠根據(jù)目標的形狀旋轉(zhuǎn)角度進行自適應調(diào)整,從而緩解單一感受點與多目標的矛盾。
此外,針對分類和回歸任務,騰訊優(yōu)圖設計了DRHC(動態(tài)修正分類器)與DRHR(動態(tài)修正回歸器),讓模型能夠同時學習樣本敏感和fintune之外的、與樣本無關(guān)的一般性知識,并通過預訓練的方式賦予模型樣本一致性調(diào)整的能力。
最后,統(tǒng)一的DRN能夠讓模型通過端到端的方式學習旋轉(zhuǎn)目標檢測任務,同時基于AnchorFree算法,DRN也能對解決密集排列目標場景下的目標重合、混淆的問題進行較好的處理。
2)目標定位:人、車、物的檢測工作所要求的標準檢測的框和目標標注的成本都很高,而在細分場景檢測時需要標注的比較精細,從而提升了標注的難度和成本。為了提高標注的效率并降低成本,騰訊優(yōu)圖在弱監(jiān)督和定位方面進行深入研究,并提出了目標結(jié)構(gòu)保持是弱監(jiān)督定位關(guān)鍵問題的觀點。
大多數(shù)弱監(jiān)督目標檢測主要是依據(jù)分類網(wǎng)絡輸出響應、空間正則約束來入手,通過提取一系列提升網(wǎng)絡的響應區(qū)域去覆蓋目標更多區(qū)域的。這種方法一般都會采用分類結(jié)構(gòu),而這樣做則會讓模型丟失目標結(jié)構(gòu)信息;同時,無限制的類別響應特征圖往往會出現(xiàn)局部提高響應導致模型分類出現(xiàn)一些誤判,不利于模型準確定位到目標的位置。
為解決以上問題,騰訊優(yōu)圖首先設定了受限激活模塊緩解模型結(jié)構(gòu)信息的損失問題,并重新定義了高階相似性,使自相關(guān)圖生成模塊顯著提高了目標定位的精度;之后,通過計算每個特征位置在類別相應性質(zhì)圖上的方差分布得出粗略的偽mask,以此來區(qū)分前背景;然后對類別響應特征圖進行歸一化,利用提出來的受限激活損失函數(shù)來引導模型關(guān)注目標前景的區(qū)域,組成受限激活模塊;最后利用受限激活模塊進行訓練,在前向inference推理的過程中,高階自相關(guān)圖就會增強圖片的表達和后處理,讓可視化圖更加清晰、定位更加準確。
3)多標簽識別:多標簽識別是內(nèi)容理解和內(nèi)容審核的場景中非常通用的技術(shù)問題。之前很多技術(shù)都是采用RNN或者GCN來網(wǎng)絡結(jié)構(gòu)來處理標簽之間的共性依賴問題,這種方法沒有考慮到標簽共性依賴,導致系統(tǒng)無法有效分辨出標簽及臨近標簽之間的關(guān)系,大大降低了圖片識別的準確度。
為此,騰訊優(yōu)圖提出了“除共性依賴以外,空間依賴也是理想多標簽預設的重要因素”這一觀點,在考慮共性依賴的基礎上引入了空間依賴的建模,通過構(gòu)建一種基于Transfomer的雙目互補關(guān)系學習框架,讓模型同時學習空間依賴和共性依賴。具體而言,即在空間依賴上使用跨尺度的Transfomer建模,對CNN提取到的一些特征經(jīng)過跨尺度增強后得到空間信息更加清晰的圖像特征,然后利用共享權(quán)重的Transfomer群來建??臻g,在建模過程中的空間依賴則根據(jù)空間關(guān)聯(lián)提升類別響應。
針對于共性依賴只需要進行內(nèi)別、感知約束和空間關(guān)聯(lián)引導,基于圖神經(jīng)網(wǎng)絡聯(lián)合GCA,聯(lián)合建模動態(tài)語義關(guān)聯(lián),最后整合兩種互補關(guān)系進行協(xié)同學習得到給魯棒的多變性預測,進一步提升圖片識別的準確性。
此外,通過標簽的value來為圖像標簽引入文本語義信息的方式,用圖像標簽做表征的方法也能取得很好的效果:將視覺的fintune和文本fintune直接用Transfomer建模,能夠讓多模態(tài)融合多標簽的識別方法,相較于純標簽的語義信息的效果有著顯著提升。
4)細粒度識別:過往的細粒度識別主要是使用通道間高階特征獲取可區(qū)別性的表達,但這種做法一般都會忽略空間位置關(guān)系的和不同語義之間的相互關(guān)系,在復雜背景或內(nèi)間距比較小的場景中誤判的情況較多?;诖祟悊栴},騰訊優(yōu)圖曾提出了通過挖掘特征間的空間關(guān)系和語義關(guān)系來建模高階關(guān)系,再對其中一些相似關(guān)系進行合并、保留區(qū)別性高的特征的解決方案。
相較于三元的線性關(guān)系建模,該方案的關(guān)系模塊能夠在考慮空間關(guān)聯(lián)的基礎上,構(gòu)建更加豐富的語義關(guān)聯(lián);同時,通過圖神經(jīng)網(wǎng)絡學習高階特征中圖層不同節(jié)點間的關(guān)系,并根據(jù)關(guān)系的三元規(guī)則對高階關(guān)系進行分組加權(quán),在對相似特征進行合并后,能夠在實現(xiàn)降維的同時保證比較高的特征;最后,在訓練過程中采取類別均衡采樣策略學習,來確保特征分布更加準確。
然后這樣的解決方案還是存在時間消耗過多和因深層擾動導致工作效果不穩(wěn)定的問題。對此騰訊優(yōu)圖提出了利用顯著性區(qū)域的對抗自動編碼器生成噪音的解決方法,讓時效性問題和對抗生成網(wǎng)絡不穩(wěn)定的問題同時得到了解決,在不同數(shù)據(jù)集的識別上都能取得比較好的識別效果。
03 騰訊優(yōu)圖視覺內(nèi)容理解的實際應用案例
目前,騰訊優(yōu)圖視覺內(nèi)容理解的實際應用場景包括ACG敏感內(nèi)容識別和圖像情感傾向分析等多類。
1)ACG敏感內(nèi)容識別:在內(nèi)容安全領域中,由于ACG場景中多種風格之間的差異化較大,導致通用模型在動畫、漫畫和游戲領域中的內(nèi)容識別能力相對較弱,容易出現(xiàn)大量的誤判。為解決此類問題,騰訊優(yōu)圖首先在統(tǒng)計原域和目標域間的特征分布后,使用MMD來縮短兩個特征分布間的距離,實現(xiàn)分布約束;然后通過漸進式學習策略讓模型在遷徙過程中優(yōu)先選擇與原域相近的樣本,有效降低了模型遷徙的難度;最后通過半監(jiān)督實現(xiàn)了通用模型的迅速迭代,生成針對ACG場景識別的專用審核模型。
在實際應用中,使用了漸進式學習策略的專用審核模型相較于直接遷徙的模型,召回率至少提升了17%~30%,極大程度上提升了ACG內(nèi)容審核工作的效率和效果。
2)圖像情感傾向分析:現(xiàn)階段的內(nèi)容審核工作中,審核系統(tǒng)對于出現(xiàn)人民幣、暴力等敏感元素的圖片都會做召回處理。但實際場景中,大量出現(xiàn)人民幣元素的圖片是正常的,這無形中為人審環(huán)節(jié)增加了很多工作負擔。
為此,騰訊優(yōu)圖提出了圖像情感傾向分析和一般的傾向分類,模擬人的主觀感覺對圖像進行識別和分析,如果一張圖中出現(xiàn)了大量人民幣和一個人,并且這個人表現(xiàn)出開心的狀態(tài),那么這張圖的情感傾向就是正向的,無需召回;但如果一張圖中出現(xiàn)了惡搞人民幣的場景,那么這張圖的情感傾向就是負向的,需要召回并進行再審核。
相關(guān)文章
- 拿下SOTA!騰訊優(yōu)圖聯(lián)合廈門大學提出AIGI生成圖像檢測新方法
- Interspeech 2025 | 騰訊優(yōu)圖實驗室4篇論文入選,涵蓋超聲波活體檢測、神經(jīng)語音編解碼、語音合成等方向
- ICCV 2025 | 騰訊優(yōu)圖實驗室大模型8篇論文入選,涵蓋風格化人臉識別、AI生成圖像檢測、多模態(tài)大語言模型等方向
- 最高10倍加速!北京大學聯(lián)合騰訊優(yōu)圖實驗室將 GQA 改造成 MLA形式
- ACL 2025 | 騰訊優(yōu)圖實驗室大模型4篇論文入選,涵蓋智能體、角色扮演、自動推理等方向
- 超越ControlNet!騰訊優(yōu)圖實驗室聯(lián)合復旦大學提出AI生圖新框架,解決多條件生成難題
- 喜報!騰訊優(yōu)圖聯(lián)合項目獲CSIG科技進步獎一等獎
- PRCV 2021 | 視覺AI飛速發(fā)展,騰訊優(yōu)圖分享內(nèi)容理解新實踐
- AAAI2022騰訊優(yōu)圖14篇論文入選,含語義分割、圖像著色、人臉安全、弱監(jiān)督目標定位、場景文本識別等前沿領域
- AICon2021 | 騰訊優(yōu)圖鄢科:以AI技術(shù)助力內(nèi)容安全 促進互聯(lián)網(wǎng)環(huán)境健康發(fā)展
- 騰訊優(yōu)圖人臉安全能力再獲認可!優(yōu)圖專家入選“護臉計劃”專家委員會
- 騰訊優(yōu)圖斬獲ICCV2021 LVIS Challenge Workshop冠軍及最佳創(chuàng)新獎
- CCAI 2021 | 騰訊優(yōu)圖汪鋮杰:用AI生成更優(yōu)更新的內(nèi)容
- 用AI技術(shù)開啟穿越時空的視覺盛宴 騰訊優(yōu)圖亮相第八屆世界互聯(lián)網(wǎng)大會
- 騰訊優(yōu)圖“AI畫廊”首次亮相2021重慶智博會展示智能技術(shù)前沿探索成果
- 騰訊優(yōu)圖17篇論文入選ICCV2021,含跨模態(tài)檢索與分割、車輛識別等領域
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案