中文大模型幻覺測評:豆包大模型準(zhǔn)確率全球第一,超越DeepSeek-R1、Gemini-2.5、GPT-4o
2025-05-24 21:41:33AI云資訊2385
近日,根據(jù)SuperCLUE 發(fā)布的最新一輪中文大模型忠實(shí)性幻覺測評結(jié)果,豆包大模型1.5 Pro(Doubao-1.5-pro-32k)以僅4%的幻覺率、96%的準(zhǔn)確率排名總榜第一,超越 DeepSeek-R1、DeepSeek-V3、Gemini-2.5-pro、GPT-4o-latest 等中外主流模型。
在涵蓋文本摘要、多文本問答、對話補(bǔ)全等關(guān)鍵任務(wù)的細(xì)分評測中,豆包大模型1.5 Pro也均位列全球第一,在閱讀理解任務(wù)中,其準(zhǔn)確率則為國內(nèi)最高,展現(xiàn)出在復(fù)雜語言理解與生成場景中的出色能力。
SuperCLUE 由獨(dú)立第三方推出,是當(dāng)前中文大語言模型評測的重要基準(zhǔn)體系。其中 SuperCLUE-Faith 聚焦中文內(nèi)容生成過程中的忠實(shí)性與幻覺控制能力,從文本摘要、閱讀理解、多文本問答以及對話補(bǔ)全等角度展開測評,對象包括國內(nèi)外共計16款具有代表性的模型,評估結(jié)果具備較強(qiáng)公信力與行業(yè)參考價值。
目前,豆包大模型家族已覆蓋全模態(tài)、全場景,包括大語言模型、深度思考模型、視覺理解模型、語音大模型,以及圖像、視頻等視覺大模型,企業(yè)可以通過字節(jié)跳動旗下云服務(wù)平臺火山引擎使用豆包大模型API服務(wù)。其中, 豆包大模型1.5 Pro 基于 MoE 架構(gòu)構(gòu)建并采用訓(xùn)練-推理一體化設(shè)計思路,在保證高性能的同時顯著降低推理成本。通過激活有限參數(shù)實(shí)現(xiàn)對大規(guī)模場景的精準(zhǔn)理解與生成,其綜合性能已超過多款超大稠密預(yù)訓(xùn)練模型。
截至2025年3月底,豆包大模型日均 tokens 調(diào)用量已超過12.7萬億,是2024年12月的3倍,是一年前剛剛發(fā)布時的106倍。IDC 報告顯示,2024年中國公有云大模型調(diào)用量激增,火山引擎以46.4%的市場份額位居中國市場第一。
據(jù)悉,火山引擎將于6月11日在北京舉辦FORCE原動力大會,將帶來豆包大模型的最新升級進(jìn)展與能力進(jìn)化。
相關(guān)文章
- Soul全雙工語音大模型升級 迭代人機(jī)交互體驗感
- 模型選型專題系列 | 業(yè)界首個!元景MaaS平臺上線《大模型選型說明書》
- 獲央視點(diǎn)贊 深蘭科技AI醫(yī)療大模型落地打浦橋街道社區(qū)服務(wù)中心
- 新達(dá)內(nèi)與百度智能云達(dá)成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案
- 打造廣東首個地方文獻(xiàn)專題處理AI大模型,南沙區(qū)圖書館“阿貝數(shù)字人”項目重磅上線!
- 商湯大裝置躋身中國大模型平臺市場頭部廠商,萬象平臺加速AI落地“最后一公里”
- DFRobot 亮相貿(mào)澤電子 elexcon 2025 展臺,展示與Qwen3 大模型融合的AI 應(yīng)用
- 曠視趙康:做大模型的“煉金術(shù)士”,讓AI在千行百業(yè)中兌現(xiàn)價值
- 云軸科技ZStack入選IDC大模型推理算力市場報告典型廠商
- 中國具身大模型初創(chuàng)公司眸深智能獲得IJCAI2025杰出論文獎,唯一獲獎大陸團(tuán)隊!
- 心率血氧監(jiān)測新玩法:行空板M10融合AI大模型,讓數(shù)據(jù)會“說話”
- 特斯拉在中國市場放棄xAI的Grok大模型 選擇接入DeepSeek AI技術(shù)
- 昇騰助力中科大團(tuán)隊實(shí)現(xiàn)MoE 稀疏大模型并行推理提速超30%
- 聚焦制造業(yè)智能化轉(zhuǎn)型 中國科學(xué)技術(shù)大學(xué)依托昇騰突破知識增強(qiáng)大模型關(guān)鍵技術(shù)
- 大模型推理成本居高不下,浪潮存儲幫你來突圍!
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會強(qiáng)勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運(yùn)載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實(shí)現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實(shí)現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案