Compass Arena首期大模型競技場榜單揭曉,智譜AI GLM-4系列模型展示領(lǐng)先實力
2024-06-15 11:17:35AI云資訊6076
6月13日,司南OpenCompass和魔搭ModelScope聯(lián)手推出的大語言模型競技場 Compass Arena公布首期大模型對戰(zhàn)榜單。智譜AI的GLM-4 w/search 排名僅次于GPT-4o,位列國內(nèi)大模型第一。相比 GLM-4,GLM-4 w/search 可以在交互過程中引入外部搜索引擎信息輔助內(nèi)容生成。
Compass Arena司南大模型競技場是由司南OpenCompass團隊和魔搭ModelScope團隊共同推出的大語言模型 (LLM) 評測平臺,旨在為國內(nèi)的大語言模型領(lǐng)域引入一種全新的競技模式,為廣大互聯(lián)網(wǎng)用戶提供了一個匿名、隨機的大語言模型競技環(huán)境,以產(chǎn)生更加客觀和真實的評價。Compass Arena匯集了Qwen-Max、GLM-4、abab6.5以及Llama 3系列等 20 余個主流大語言模型,通過創(chuàng)新的競技模式,讓用戶在直觀體驗比較不同模型的性能后,根據(jù)自己對生成內(nèi)容質(zhì)量的主觀判斷,自由評估選擇生成效果更為出色的大模型。
Compass Arena大模型競技場首期對戰(zhàn)榜單收集了截至6月12日接近6000條由用戶真實反饋的大模型匿名對戰(zhàn)數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗和過濾后利用Bradley-Terry模型估計了大語言模型的競技場Elo等級分數(shù)和95%置信區(qū)間,并使用該等級分數(shù)對大模型進行排名。榜單中,智譜AI的GLM-4 w/search憑借回答環(huán)節(jié)引入外部搜索引擎信息能力的輔助,有效提升了生成內(nèi)容的準(zhǔn)確性和完整性,排名僅次于GPT-4o位列第二名,成為Compass Arena大模型競技場首期對戰(zhàn)榜單國內(nèi)大模型第一名。
值得一提的是,智譜AI的GLM-4系列模型自發(fā)布以來便收獲業(yè)內(nèi)及廣大用戶認可,并多次在權(quán)威榜單與全球頂級大模型一較高下。清華《SuperBench大模型綜合能力評測報告》顯示,GLM-4在語義理解等方面的能力表現(xiàn)超過眾多國際一流模型,在代碼、智能體等方面,排名國內(nèi)第一。在SuperCLUE-Fin(SC-Fin)中文原生金融大模型測評基準(zhǔn)中,GLM-4斬獲一項A+及多項A級評價,在國內(nèi)大模型中排名第一。
據(jù)了解,智譜AI于今年1月推出新一代基座大模型GLM-4,并在6月初發(fā)布最新開源模型GLM-4-9B,該模型擁有更強的基礎(chǔ)能力,支持更長的上下文(最高支持1M/約兩百萬字),有更精準(zhǔn)的函數(shù)調(diào)用和All Tools能力,并在這個尺寸上首次具備了多模態(tài)能力。GLM-4-9B綜合能力相比ChatGLM3-6B提升40%,全面超過Llama-3-8B-Instruct,中文學(xué)科能力提升50%,最高支持達1百萬tokens長文本,支持多達26種語言,函數(shù)調(diào)用(Function Call)能力媲美GPT-4-Turbo。
上述模型均已在智譜AI MaaS大模型開放平臺上線,開發(fā)者可以通過bigmodel.cn便捷接入GLM-4全系列模型開放API,從而體驗智譜大模型的卓越性能。
相關(guān)文章
- Soul全雙工語音大模型升級 迭代人機交互體驗感
- 模型選型專題系列 | 業(yè)界首個!元景MaaS平臺上線《大模型選型說明書》
- 獲央視點贊 深蘭科技AI醫(yī)療大模型落地打浦橋街道社區(qū)服務(wù)中心
- 新達內(nèi)與百度智能云達成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案
- 打造廣東首個地方文獻專題處理AI大模型,南沙區(qū)圖書館“阿貝數(shù)字人”項目重磅上線!
- 商湯大裝置躋身中國大模型平臺市場頭部廠商,萬象平臺加速AI落地“最后一公里”
- DFRobot 亮相貿(mào)澤電子 elexcon 2025 展臺,展示與Qwen3 大模型融合的AI 應(yīng)用
- 曠視趙康:做大模型的“煉金術(shù)士”,讓AI在千行百業(yè)中兌現(xiàn)價值
- 云軸科技ZStack入選IDC大模型推理算力市場報告典型廠商
- 中國具身大模型初創(chuàng)公司眸深智能獲得IJCAI2025杰出論文獎,唯一獲獎大陸團隊!
- 心率血氧監(jiān)測新玩法:行空板M10融合AI大模型,讓數(shù)據(jù)會“說話”
- 特斯拉在中國市場放棄xAI的Grok大模型 選擇接入DeepSeek AI技術(shù)
- 昇騰助力中科大團隊實現(xiàn)MoE 稀疏大模型并行推理提速超30%
- 聚焦制造業(yè)智能化轉(zhuǎn)型 中國科學(xué)技術(shù)大學(xué)依托昇騰突破知識增強大模型關(guān)鍵技術(shù)
- 大模型推理成本居高不下,浪潮存儲幫你來突圍!
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案