快手發(fā)布多模態(tài)大模型Keye-VL-1.5 8B性能領(lǐng)先、視頻理解能力更強(qiáng)
2025-09-11 16:24:30AI云資訊2445
近日,快手正式發(fā)布多模態(tài)大語言模型Keye-VL-1.5-8B。與之前的版本相比,Keye-VL-1.5的綜合性能實(shí)現(xiàn)顯著提升,尤其在基礎(chǔ)視覺理解能力方面,包括視覺元素識別、推理能力以及對時序信息的理—表現(xiàn)尤為突出。Keye-VL-1.5在同等規(guī)模的模型中表現(xiàn)出色,甚至超越了一些閉源模型如GPT-4o。
創(chuàng)新性提出慢快編碼策略兼顧性能與成本
為了在短視頻理解任務(wù)中同時實(shí)現(xiàn)高準(zhǔn)確性與高效率。Keye-VL-1.5 創(chuàng)新性地提出了慢快編碼策略 (slow-fast),該策略設(shè)置慢通路處理快速變化幀(低幀數(shù)-高分辨率),快通路處理靜態(tài)幀(高幀數(shù)-低分辨率),從而在節(jié)省計算資源的同時保留關(guān)鍵信息。
漸進(jìn)式四階段預(yù)訓(xùn)練方法大幅增強(qiáng)視頻理解能力
Keye-VL-1.5采用四階段漸進(jìn)式訓(xùn)練流水線,以系統(tǒng)化方式提升模型性能。首先,在視覺編碼器預(yù)訓(xùn)練階段,使用SigLIP-400M權(quán)重初始化ViT,并通過SigLIP對比損失持續(xù)預(yù)訓(xùn)練以適應(yīng)內(nèi)部數(shù)據(jù)分布。第一階段重點(diǎn)優(yōu)化投影MLP層,實(shí)現(xiàn)跨模態(tài)特征的穩(wěn)固對齊;第二階段解凍全部參數(shù)進(jìn)行端到端多任務(wù)預(yù)訓(xùn)練,顯著增強(qiáng)基礎(chǔ)視覺理解能力;第三階段進(jìn)行退火訓(xùn)練,利用高質(zhì)量數(shù)據(jù)微調(diào)模型,彌補(bǔ)上一階段中高質(zhì)量樣本接觸不足的問題,同時將序列長度擴(kuò)展至128K、調(diào)整RoPE逆頻率配置,并引入長視頻、長文本和大尺度圖像等長上下文數(shù)據(jù)。
最終,通過同質(zhì)-異質(zhì)融合技術(shù)對不同數(shù)據(jù)混合比例下的模型權(quán)重進(jìn)行平均,減少固定數(shù)據(jù)比例帶來的內(nèi)在偏差,在保持多樣化能力的同時提升模型的魯棒性。
構(gòu)建一套完整的后訓(xùn)練流程全面提升推理能力與人類偏好對齊
Keye-VL-1.5構(gòu)建了一套系統(tǒng)化的后訓(xùn)練流程,包含四個核心階段:監(jiān)督微調(diào)與多偏好優(yōu)化、長鏈思維冷啟動、迭代通用強(qiáng)化學(xué)習(xí)以及對齊強(qiáng)化學(xué)習(xí)。該流程進(jìn)一步融合了由快手Keye團(tuán)隊(duì)提出的五步自動化數(shù)據(jù)構(gòu)建流水線,并依托GSPO算法對通用強(qiáng)化學(xué)習(xí)與對齊階段進(jìn)行迭代優(yōu)化,顯著增強(qiáng)了模型的推理能力,同時更好地與人類偏好實(shí)現(xiàn)對齊。
在多項(xiàng)權(quán)威評測中,Keye-VL-1.5-8B表現(xiàn)突出,在MMMUval、OpenCompass等大型多模態(tài)評測中達(dá)到同類規(guī)模最佳成績,在Video-MMMU視頻理解評測中取得66分,展現(xiàn)出領(lǐng)先的視頻語義理解與技術(shù)落地潛力。
此外,Keye-VL-1.5-8B目前已在Hugging Face、GitHub等平臺開源,相關(guān)技術(shù)報告同步發(fā)布,推動多模態(tài)大模型技術(shù)共享與生態(tài)共建。
快手Keye團(tuán)隊(duì)表示,該模型依托快手在短視頻領(lǐng)域的深厚積累,在視頻時序理解、場景推理與指令跟隨等關(guān)鍵能力方面優(yōu)勢顯著。未來,Keye-VL將持續(xù)推進(jìn)多模態(tài)大模型在視頻語義理解與生成領(lǐng)域的探索與應(yīng)用。
相關(guān)文章
- 累計生成超2億視頻,快手可靈AI引領(lǐng)“生成式AI應(yīng)用元年”
- CVPR2025:快手可靈四大技術(shù)方向布局視頻生成及世界模型
- 快手上線鴻蒙應(yīng)用高性能解決方案 高效提升數(shù)據(jù)反序列化性能
- 快手與杜比實(shí)驗(yàn)室達(dá)成深度合作 短視頻領(lǐng)域首家全鏈路支持“杜比視界”
- 快手與清華大學(xué)聯(lián)合項(xiàng)目榮獲錢偉長中文信息處理科學(xué)技術(shù)獎
- 人工智能智庫網(wǎng)絡(luò)在京啟動,百度、快手、華為、螞蟻、騰訊、阿里等發(fā)起
- 快手可靈AI面向全球發(fā)布1.5模型 新增“運(yùn)動筆刷”效果業(yè)內(nèi)領(lǐng)先
- 藍(lán)色光標(biāo)Blue AI攜手快手可靈AI,共同引領(lǐng)AI視頻生成新時代
- 快手出席2024中國多媒體大會:AI驅(qū)動多媒體創(chuàng)新 構(gòu)建AI產(chǎn)學(xué)研生態(tài)
- 快手大模型首次集體亮相WAIC 2024,用AI重塑內(nèi)容與商業(yè)生態(tài)
- CCF-快手大模型探索者基金正式啟動,賦能全球科研創(chuàng)新
- 快手“快意大模型”獲信通院5級評估
- 快手“可靈”大模型燃爆AI賽道 萬興科技金山辦公等受關(guān)注
- 快手發(fā)布對標(biāo)Sora的視頻生成大模型「可靈」 已開放邀測體驗(yàn)
- InfoQ發(fā)布中國技術(shù)力量之AIGC先鋒榜 快手“AI小快”等入選最佳實(shí)踐案例
- 快手啟動鴻蒙原生應(yīng)用開發(fā),構(gòu)建全場景短視頻社交新體驗(yàn)
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會強(qiáng)勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運(yùn)載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實(shí)現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案