理大開發(fā)嶄新長視頻推理多模態(tài)框架 加速生成式人工智能應(yīng)用于視頻分析
2025-06-11 08:22:14AI云資訊1436
2025年6月10日 - 人工智能發(fā)展迅速,但不少模型在理解長視頻時仍面對不少挑戰(zhàn)。香港理工大學(xué)(理大)研究團隊開發(fā)多模態(tài)智能體VideoMind,令人工智能模型能通過模仿人類思考過程,理解長視頻及回答內(nèi)容提問,并結(jié)合創(chuàng)新的鏈式低秩適應(yīng)(Low-Rank Adaptation,LoRA)策略,大大減低消耗資源和所需算力,推動生成式人工智能于視頻分析的商業(yè)化應(yīng)用。研究成果已投稿至人工智能頂級會議。
理大計算器及數(shù)學(xué)科學(xué)學(xué)院暫任院長及視覺計算講座教授陳長汶教授帶領(lǐng)的研究團隊開發(fā)多模態(tài)智能體VideoMind,令人工智能模型能通過模仿人類思考過程,理解長視頻及回答內(nèi)容提問,并結(jié)合創(chuàng)新的鏈式低秩適應(yīng)策略,減低消耗資源和所需算力,推動生成式人工智能視頻分析的商業(yè)化應(yīng)用。
視頻,尤其是長視頻(15分鐘以上),不單純是疊加的靜態(tài)畫面,其內(nèi)容包含隨時間推移產(chǎn)生的信息,例如事件的發(fā)生時序、前因后果、連貫性及場景轉(zhuǎn)換等。人工智能模型要理解視頻,不但要識別當(dāng)中的事物,還要兼顧時間維度的訊息,即事物如何隨時間變化。由于畫面占用了大量標(biāo)記(token),導(dǎo)致視頻推理需要消耗龐大算力和內(nèi)存,令一般大模型難以應(yīng)付太長的視頻。
理大計算器及數(shù)學(xué)科學(xué)學(xué)院暫任院長及視覺計算講座教授陳長汶教授帶領(lǐng)的研究團隊在長視頻推理研究取得突破,團隊參考了人類理解視頻的過程,在其開發(fā)的VideoMind框架內(nèi)設(shè)計角色化流程,以漸進式推理的方式,解決模型在理解時序上的困難。框架內(nèi)的四個角色分別為負責(zé)決定如何調(diào)用其他角色的規(guī)劃者(Planner)、搜尋及定位與問題相關(guān)片段的定位者(Grounder)、透過裁剪片段及放大畫面等方法驗證片段的驗證者(Verifier),以及分析選定片段并生成答案的回答者(Answerer)。
VideoMind的另一核心創(chuàng)新在于采用了鏈式LoRA(Chain-of-LoRA)的策略。LoRA是最近兩年新興的大型語言模型微調(diào)技術(shù),透過在既有模型內(nèi)進行低階調(diào)整,令模型不需要重新接受全量(full-parameter)訓(xùn)練,亦能執(zhí)行特定功能。團隊提出的創(chuàng)新鏈式LoRA策略,只需要在同一基礎(chǔ)模型上,加載四個輕量級的LoRA適應(yīng)器,對應(yīng)不同角色,即可令模型按需要自行啟動不同的適應(yīng)器,動態(tài)切換角色,減省了需要動用的模型量及相關(guān)成本,同時提高單一模型的效能及靈活度。
研究團隊已在GitHub和HuggingFace平臺開源VideoMind項目,以公開測試的長視頻任務(wù),涉及14個人工智能模型基準檢驗集。團隊將VideoMind與多個先進大語言模型及多模態(tài)模型作比較,發(fā)現(xiàn)VideoMind在處理平均時長達27分鐘的長視頻時,定位準確度較GTP-4o、Gemini 1.5等尖端大模型更優(yōu)勝。值得注意的是,團隊同時測試了較小的20億(2B)參數(shù)量及較大的70億(7B)參數(shù)量的VideoMind,發(fā)現(xiàn)2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。
陳長汶教授表示:「人類觀看視頻時會切換思維方式,先拆解問題,再找出相關(guān)片段,然后反復(fù)重溫及核對,才對內(nèi)容下結(jié)論。此過程效率極高;大腦總功耗僅25瓦左右,比相同算力的超級計算機要低100萬倍。我們從這種人類的思考模式中獲得啟發(fā),設(shè)計角色化流程,真正讓人工智能像人類一樣理解視頻,并成功透過鏈式LoRA策略降低算力和內(nèi)存需求。」
人工智能浪潮席卷全球,但算力不足和耗能過高的情況日益嚴重。VideoMind以開源、參數(shù)量少的多模態(tài)模型Qwen2-VL為骨干,配置優(yōu)化工具,降低了技術(shù)成本和部署門檻,為人工智能模型功耗過高的問題提出可行解決途徑。陳教授補充:「VideoMind框架不但突破了人工智能在視頻處理的限制,更可作為一個模塊化、可擴展、具解釋能力的多模態(tài)推理框架,拓展生成式人工智能的應(yīng)用范圍,如智能保安監(jiān)控、體育競技及娛樂視頻分析、視頻搜尋功能等領(lǐng)域?!?
相關(guān)文章
- 中國聯(lián)通全面承接國家人工智能應(yīng)用中試基地(醫(yī)療領(lǐng)域)
- 共繪金融支付數(shù)智藍圖,中國銀聯(lián)在2025世界人工智能大會正式啟動國家人工智能應(yīng)用中試基地項目
- 2025第三屆全國人工智能應(yīng)用場景創(chuàng)新挑戰(zhàn)賽“五岳杯”量子計算專項賽啟動丨玻色量子協(xié)辦
- 理大開發(fā)嶄新長視頻推理多模態(tài)框架 加速生成式人工智能應(yīng)用于視頻分析
- 倍孜網(wǎng)絡(luò)CEO聶子堯主持虎嘯盛典AI論壇并發(fā)布《2025中國數(shù)字營銷行業(yè)人工智能應(yīng)用趨勢研究報告》
- 青云智算產(chǎn)品與服務(wù)亮相 2025 西北旺人工智能應(yīng)用創(chuàng)新生態(tài)大會
- 2025中國互聯(lián)網(wǎng)科技大會暨中國人工智能應(yīng)用發(fā)展大會在北京隆重啟動
- 博大數(shù)據(jù)CEO張永健現(xiàn)身菲律賓馬卡蒂大學(xué),人工智能應(yīng)用講座點燃學(xué)子創(chuàng)新火花
- 青云科技入選“新智榜單”——人工智能應(yīng)用標(biāo)桿 TOP100
- 海泰方圓榮獲全球弗雷德人工智能應(yīng)用能力認證(GFC-AIAS)
- 出門問問被寫入《中國合生成式人工智能應(yīng)用與實踐展望》白皮書!
- 金山辦公入選福布斯中國2024 ESG 50榜單,人工智能應(yīng)用WPS AI獲認可
- 中科視語與北京市體育科學(xué)研究所聯(lián)合研發(fā)運動訓(xùn)練平臺,入選首批北京市人工智能應(yīng)用場景
- AIoT繪就萬物智聯(lián)圖景,“華為云杯”2024人工智能應(yīng)用創(chuàng)新大賽圓滿收官
- 海淀工匠學(xué)院揭牌暨第四屆“海淀工匠杯”職工職業(yè)技能大賽人工智能應(yīng)用與網(wǎng)絡(luò)安全職業(yè)技能競賽啟動儀式圓滿舉行
- 澳洲會計師公會調(diào)查:中國內(nèi)地企業(yè)在人工智能應(yīng)用領(lǐng)域加速
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 神眸榮獲快手“品牌標(biāo)桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應(yīng)用
- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
人工智能產(chǎn)業(yè)
更多>>- 首都機場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案