精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

超越GPT-4V!智譜AI第二代視覺大模型CogVLM2,19B參數(shù)跑出卓越性能

2024-05-23 17:17:38AI云資訊200145

繼去年發(fā)布并開源VisualGLM-6B和CogVLM之后,智譜AI宣布近期將推出新一代多模態(tài)大模型CogVLM2。這款模型以其19B的參數(shù)量,在性能上接近或超越了GPT-4V。

據(jù)悉,CogVLM2系列模型在多個關(guān)鍵指標(biāo)上實現(xiàn)了顯著提升,如在 OCRbench 基準(zhǔn)上性能提升32%,在TextVQA基準(zhǔn)上性能提升21.9%,且模型具備了較強(qiáng)的文檔圖像理解能力(DocVQA)等。此外,CogVLM2支持8K文本長度和高達(dá)1344*1344的圖像分辨率,同時提供中英文雙語的開源模型版本。

CogVLM2 繼承并優(yōu)化了上一代模型的經(jīng)典架構(gòu),采用了一個擁有50億參數(shù)的強(qiáng)大視覺編碼器,并創(chuàng)新性地在大語言模型中整合了一個70億參數(shù)的視覺專家模塊。這一模塊通過獨特的參數(shù)設(shè)置,精細(xì)地建模了視覺與語言序列的交互,確保了在增強(qiáng)視覺理解能力的同時,不會削弱模型在語言處理上的原有優(yōu)勢。這種深度融合的策略,使得視覺模態(tài)與語言模態(tài)能夠更加緊密地結(jié)合。

值得注意的是,盡管CogVLM2的總參數(shù)量為190億,但實際激活的參數(shù)量僅約120億,這得益于精心設(shè)計的多專家模塊結(jié)構(gòu),顯著提高了推理效率。此外,CogVLM2能夠支持高達(dá)1344分辨率的圖像輸入,并引入了專門的降采樣模塊,以提高處理高分辨率圖像的效率。

在多模態(tài)基準(zhǔn)測試中,CogVLM2的兩個模型,盡管具有較小的模型尺寸,但在多個基準(zhǔn)中取得 SOTA性能;而在其他性能上,也能達(dá)到與閉源模型(例如GPT-4V、Gemini Pro等)接近的水平。

開發(fā)者可以通過GitHub、Huggingface、魔搭社區(qū)和始智社區(qū)下載CogVLM2的模型,團(tuán)隊還透露,GLM新版本會內(nèi)嵌CogVLM2能力,在智譜清言App和智譜AI大模型MaaS開放平臺上線。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews