精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

理大開發(fā)嶄新長視頻推理多模態(tài)框架 加速生成式人工智能應(yīng)用于視頻分析

2025-06-11 08:22:14AI云資訊1436

2025年6月10日 - 人工智能發(fā)展迅速,但不少模型在理解長視頻時仍面對不少挑戰(zhàn)。香港理工大學(xué)(理大)研究團隊開發(fā)多模態(tài)智能體VideoMind,令人工智能模型能通過模仿人類思考過程,理解長視頻及回答內(nèi)容提問,并結(jié)合創(chuàng)新的鏈式低秩適應(yīng)(Low-Rank Adaptation,LoRA)策略,大大減低消耗資源和所需算力,推動生成式人工智能于視頻分析的商業(yè)化應(yīng)用。研究成果已投稿至人工智能頂級會議。

理大計算器及數(shù)學(xué)科學(xué)學(xué)院暫任院長及視覺計算講座教授陳長汶教授帶領(lǐng)的研究團隊開發(fā)多模態(tài)智能體VideoMind,令人工智能模型能通過模仿人類思考過程,理解長視頻及回答內(nèi)容提問,并結(jié)合創(chuàng)新的鏈式低秩適應(yīng)策略,減低消耗資源和所需算力,推動生成式人工智能視頻分析的商業(yè)化應(yīng)用。

視頻,尤其是長視頻(15分鐘以上),不單純是疊加的靜態(tài)畫面,其內(nèi)容包含隨時間推移產(chǎn)生的信息,例如事件的發(fā)生時序、前因后果、連貫性及場景轉(zhuǎn)換等。人工智能模型要理解視頻,不但要識別當(dāng)中的事物,還要兼顧時間維度的訊息,即事物如何隨時間變化。由于畫面占用了大量標(biāo)記(token),導(dǎo)致視頻推理需要消耗龐大算力和內(nèi)存,令一般大模型難以應(yīng)付太長的視頻。

理大計算器及數(shù)學(xué)科學(xué)學(xué)院暫任院長及視覺計算講座教授陳長汶教授帶領(lǐng)的研究團隊在長視頻推理研究取得突破,團隊參考了人類理解視頻的過程,在其開發(fā)的VideoMind框架內(nèi)設(shè)計角色化流程,以漸進式推理的方式,解決模型在理解時序上的困難。框架內(nèi)的四個角色分別為負責(zé)決定如何調(diào)用其他角色的規(guī)劃者(Planner)、搜尋及定位與問題相關(guān)片段的定位者(Grounder)、透過裁剪片段及放大畫面等方法驗證片段的驗證者(Verifier),以及分析選定片段并生成答案的回答者(Answerer)。

VideoMind的另一核心創(chuàng)新在于采用了鏈式LoRA(Chain-of-LoRA)的策略。LoRA是最近兩年新興的大型語言模型微調(diào)技術(shù),透過在既有模型內(nèi)進行低階調(diào)整,令模型不需要重新接受全量(full-parameter)訓(xùn)練,亦能執(zhí)行特定功能。團隊提出的創(chuàng)新鏈式LoRA策略,只需要在同一基礎(chǔ)模型上,加載四個輕量級的LoRA適應(yīng)器,對應(yīng)不同角色,即可令模型按需要自行啟動不同的適應(yīng)器,動態(tài)切換角色,減省了需要動用的模型量及相關(guān)成本,同時提高單一模型的效能及靈活度。

研究團隊已在GitHub和HuggingFace平臺開源VideoMind項目,以公開測試的長視頻任務(wù),涉及14個人工智能模型基準檢驗集。團隊將VideoMind與多個先進大語言模型及多模態(tài)模型作比較,發(fā)現(xiàn)VideoMind在處理平均時長達27分鐘的長視頻時,定位準確度較GTP-4o、Gemini 1.5等尖端大模型更優(yōu)勝。值得注意的是,團隊同時測試了較小的20億(2B)參數(shù)量及較大的70億(7B)參數(shù)量的VideoMind,發(fā)現(xiàn)2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。

陳長汶教授表示:「人類觀看視頻時會切換思維方式,先拆解問題,再找出相關(guān)片段,然后反復(fù)重溫及核對,才對內(nèi)容下結(jié)論。此過程效率極高;大腦總功耗僅25瓦左右,比相同算力的超級計算機要低100萬倍。我們從這種人類的思考模式中獲得啟發(fā),設(shè)計角色化流程,真正讓人工智能像人類一樣理解視頻,并成功透過鏈式LoRA策略降低算力和內(nèi)存需求。」

人工智能浪潮席卷全球,但算力不足和耗能過高的情況日益嚴重。VideoMind以開源、參數(shù)量少的多模態(tài)模型Qwen2-VL為骨干,配置優(yōu)化工具,降低了技術(shù)成本和部署門檻,為人工智能模型功耗過高的問題提出可行解決途徑。陳教授補充:「VideoMind框架不但突破了人工智能在視頻處理的限制,更可作為一個模塊化、可擴展、具解釋能力的多模態(tài)推理框架,拓展生成式人工智能的應(yīng)用范圍,如智能保安監(jiān)控、體育競技及娛樂視頻分析、視頻搜尋功能等領(lǐng)域?!?

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews