美女扒开腿让男人桶爽30分钟,国产卡一卡二卡三无线乱码新区,亚洲精品一区二区三区四区高清

2025年6月10日 - 人工智能發(fā)展迅速，但不少模型在理解長視頻時仍面對不少挑戰(zhàn)。香港理工大學(xué)（理大）研究團隊開發(fā)多模態(tài)智能體VideoMind，令人工智能模型能通過模仿人類思考過程，理解長視頻及回答內(nèi)容提問，并結(jié)合創(chuàng)新的鏈式低秩適應(yīng)（Low-Rank Adaptation，LoRA）策略，大大減低消耗資源和所需算力，推動生成式人工智能于視頻分析的商業(yè)化應(yīng)用。研究成果已投稿至人工智能頂級會議。

理大計算器及數(shù)學(xué)科學(xué)學(xué)院暫任院長及視覺計算講座教授陳長汶教授帶領(lǐng)的研究團隊開發(fā)多模態(tài)智能體VideoMind，令人工智能模型能通過模仿人類思考過程，理解長視頻及回答內(nèi)容提問，并結(jié)合創(chuàng)新的鏈式低秩適應(yīng)策略，減低消耗資源和所需算力，推動生成式人工智能視頻分析的商業(yè)化應(yīng)用。

視頻，尤其是長視頻（15分鐘以上），不單純是疊加的靜態(tài)畫面，其內(nèi)容包含隨時間推移產(chǎn)生的信息，例如事件的發(fā)生時序、前因后果、連貫性及場景轉(zhuǎn)換等。人工智能模型要理解視頻，不但要識別當(dāng)中的事物，還要兼顧時間維度的訊息，即事物如何隨時間變化。由于畫面占用了大量標(biāo)記（token），導(dǎo)致視頻推理需要消耗龐大算力和內(nèi)存，令一般大模型難以應(yīng)付太長的視頻。

理大計算器及數(shù)學(xué)科學(xué)學(xué)院暫任院長及視覺計算講座教授陳長汶教授帶領(lǐng)的研究團隊在長視頻推理研究取得突破，團隊參考了人類理解視頻的過程，在其開發(fā)的VideoMind框架內(nèi)設(shè)計角色化流程，以漸進式推理的方式，解決模型在理解時序上的困難。框架內(nèi)的四個角色分別為負責(zé)決定如何調(diào)用其他角色的規(guī)劃者（Planner）、搜尋及定位與問題相關(guān)片段的定位者（Grounder）、透過裁剪片段及放大畫面等方法驗證片段的驗證者（Verifier），以及分析選定片段并生成答案的回答者（Answerer）。

VideoMind的另一核心創(chuàng)新在于采用了鏈式LoRA（Chain-of-LoRA）的策略。LoRA是最近兩年新興的大型語言模型微調(diào)技術(shù)，透過在既有模型內(nèi)進行低階調(diào)整，令模型不需要重新接受全量（full-parameter）訓(xùn)練，亦能執(zhí)行特定功能。團隊提出的創(chuàng)新鏈式LoRA策略，只需要在同一基礎(chǔ)模型上，加載四個輕量級的LoRA適應(yīng)器，對應(yīng)不同角色，即可令模型按需要自行啟動不同的適應(yīng)器，動態(tài)切換角色，減省了需要動用的模型量及相關(guān)成本，同時提高單一模型的效能及靈活度。

研究團隊已在GitHub和HuggingFace平臺開源VideoMind項目，以公開測試的長視頻任務(wù)，涉及14個人工智能模型基準檢驗集。團隊將VideoMind與多個先進大語言模型及多模態(tài)模型作比較，發(fā)現(xiàn)VideoMind在處理平均時長達27分鐘的長視頻時，定位準確度較GTP-4o、Gemini 1.5等尖端大模型更優(yōu)勝。值得注意的是，團隊同時測試了較小的20億（2B）參數(shù)量及較大的70億（7B）參數(shù)量的VideoMind，發(fā)現(xiàn)2B模型的VideoMind性能已足以媲美其他7B或以上的大模型。

陳長汶教授表示：「人類觀看視頻時會切換思維方式，先拆解問題，再找出相關(guān)片段，然后反復(fù)重溫及核對，才對內(nèi)容下結(jié)論。此過程效率極高；大腦總功耗僅25瓦左右，比相同算力的超級計算機要低100萬倍。我們從這種人類的思考模式中獲得啟發(fā)，設(shè)計角色化流程，真正讓人工智能像人類一樣理解視頻，并成功透過鏈式LoRA策略降低算力和內(nèi)存需求。」

人工智能浪潮席卷全球，但算力不足和耗能過高的情況日益嚴重。VideoMind以開源、參數(shù)量少的多模態(tài)模型Qwen2-VL為骨干，配置優(yōu)化工具，降低了技術(shù)成本和部署門檻，為人工智能模型功耗過高的問題提出可行解決途徑。陳教授補充：「VideoMind框架不但突破了人工智能在視頻處理的限制，更可作為一個模塊化、可擴展、具解釋能力的多模態(tài)推理框架，拓展生成式人工智能的應(yīng)用范圍，如智能保安監(jiān)控、體育競技及娛樂視頻分析、視頻搜尋功能等領(lǐng)域?！?

精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

理大開發(fā)嶄新長視頻推理多模態(tài)框架加速生成式人工智能應(yīng)用于視頻分析

相關(guān)文章

人工智能企業(yè)

人工智能硬件

人工智能產(chǎn)業(yè)

人工智能技術(shù)