超越GPT-4V!智譜AI第二代視覺大模型CogVLM2,19B參數(shù)跑出卓越性能
2024-05-23 17:17:38AI云資訊200145
繼去年發(fā)布并開源VisualGLM-6B和CogVLM之后,智譜AI宣布近期將推出新一代多模態(tài)大模型CogVLM2。這款模型以其19B的參數(shù)量,在性能上接近或超越了GPT-4V。
據(jù)悉,CogVLM2系列模型在多個關(guān)鍵指標(biāo)上實現(xiàn)了顯著提升,如在 OCRbench 基準(zhǔn)上性能提升32%,在TextVQA基準(zhǔn)上性能提升21.9%,且模型具備了較強(qiáng)的文檔圖像理解能力(DocVQA)等。此外,CogVLM2支持8K文本長度和高達(dá)1344*1344的圖像分辨率,同時提供中英文雙語的開源模型版本。
CogVLM2 繼承并優(yōu)化了上一代模型的經(jīng)典架構(gòu),采用了一個擁有50億參數(shù)的強(qiáng)大視覺編碼器,并創(chuàng)新性地在大語言模型中整合了一個70億參數(shù)的視覺專家模塊。這一模塊通過獨特的參數(shù)設(shè)置,精細(xì)地建模了視覺與語言序列的交互,確保了在增強(qiáng)視覺理解能力的同時,不會削弱模型在語言處理上的原有優(yōu)勢。這種深度融合的策略,使得視覺模態(tài)與語言模態(tài)能夠更加緊密地結(jié)合。
值得注意的是,盡管CogVLM2的總參數(shù)量為190億,但實際激活的參數(shù)量僅約120億,這得益于精心設(shè)計的多專家模塊結(jié)構(gòu),顯著提高了推理效率。此外,CogVLM2能夠支持高達(dá)1344分辨率的圖像輸入,并引入了專門的降采樣模塊,以提高處理高分辨率圖像的效率。
在多模態(tài)基準(zhǔn)測試中,CogVLM2的兩個模型,盡管具有較小的模型尺寸,但在多個基準(zhǔn)中取得 SOTA性能;而在其他性能上,也能達(dá)到與閉源模型(例如GPT-4V、Gemini Pro等)接近的水平。
開發(fā)者可以通過GitHub、Huggingface、魔搭社區(qū)和始智社區(qū)下載CogVLM2的模型,團(tuán)隊還透露,GLM新版本會內(nèi)嵌CogVLM2能力,在智譜清言App和智譜AI大模型MaaS開放平臺上線。
相關(guān)文章
- 首創(chuàng)AI值守?zé)o人小店,浙江移動視覺大模型加速落地
- 超越GPT-4V!智譜AI第二代視覺大模型CogVLM2,19B參數(shù)跑出卓越性能
- 年度技術(shù)突破新物種:美圖視覺大模型MiracleVision
- 美圖AI視覺大模型MiracleVision(奇想智能)正式上線
- 美圖視覺大模型MiracleVision入選2023中國+大模型先鋒案例
- 美圖視覺大模型MiracleVision斬獲大模型創(chuàng)新應(yīng)用獎項
- 美圖創(chuàng)造力大會倒計時24小時:將發(fā)布自研視覺大模型4.0版本
- 美圖創(chuàng)造力大會海報猜想:視覺大模型4.0要來了?
- 奧看科技榮獲“2023 中國領(lǐng)軍城市智慧視覺大模型解決方案提供商”獎
- 美圖公司吳欣鴻:視覺大模型應(yīng)用普及將經(jīng)歷三個階段
- 美圖公司股價報4港元創(chuàng)2年新高 發(fā)布自研視覺大模型3.0
- 美圖自研視覺大模型3.0發(fā)布:助力廣告、電商、游戲、動漫、影視五大行業(yè)
- 懸念即將揭曉,美圖影像節(jié)或?qū)l(fā)布視覺大模型?
- 中國移動創(chuàng)研院與聯(lián)匯科技發(fā)布首個基于視覺大模型能力的AGI算力服務(wù)產(chǎn)品
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會強(qiáng)勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運(yùn)載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案