OpenAI現(xiàn)場演示翻車?GPT-5發(fā)布會現(xiàn)神圖,奧爾特曼自嘲:圖表重大失誤
2025-08-08 06:48:23AI云資訊1919
(AI云資訊消息)在北京時間8月8日凌晨舉行的GPT-5重磅直播發(fā)布會上,OpenAI展示的多組數(shù)據(jù)圖表看似彰顯了模型的卓越性能,但細(xì)看之下,部分圖表卻出現(xiàn)了令人啼笑皆非的烏龍。
最具諷刺意味的是一張展示各模型欺騙評估表現(xiàn)的圖表:縱坐標(biāo)刻度混亂不堪。例如在代碼欺騙指標(biāo)中,現(xiàn)場演示顯示GPT-5思考版取得50.0%的欺騙率,但對比參照的OpenAI自家o3小模型47.4%的數(shù)值時,o3小模型柱狀圖反而顯示更長。有趣的是,OpenAI在官方博客中公布的準(zhǔn)確數(shù)據(jù)顯示,GPT-5實際欺騙率應(yīng)為16.5%。
在這張引發(fā)爭議的圖表中,OpenAI現(xiàn)場演示出現(xiàn)了一個明顯悖論:GPT-5某項評分明明低于o3模型,對應(yīng)的柱狀圖卻顯示更長。更離譜的是,o3與GPT-4o的評分?jǐn)?shù)值不同,圖表中卻呈現(xiàn)為等長柱狀。如此嚴(yán)重的可視化失誤,連CEO薩姆·奧爾特曼都忍不住吐槽這是史詩級圖表翻車,不過他隨即澄清官網(wǎng)博客已發(fā)布正確版本。
目前,OpenAI尚未就此事置評。雖然尚不確定這些圖表是否由GPT-5生成,但在新品發(fā)布的重要時刻出現(xiàn)如此紕漏,對公司形象著實不利,尤其當(dāng)OpenAI正大力宣傳其新模型在減少幻覺方面取得重大突破之際,這樣的失誤顯得格外諷刺。
相關(guān)文章
- 微軟與OpenAI達(dá)成新協(xié)議,或為OpenAI上市鋪平道路
- 甲骨文與OpenAI達(dá)成3000億美元“星際之門”項目協(xié)議 或?qū)⒅厮茉朴嬎闩c人工智能未來
- OpenAI攜AI動畫電影《Critterz》進軍好萊塢
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- OpenAI或于2026年推出自研AI芯片
- 馬斯克起訴OpenAI和蘋果公司,指控ChatGPT和蘋果應(yīng)用商店非法壟斷
- OpenAI對盈利模式持開放態(tài)度 ChatGPT負(fù)責(zé)人稱不排除未來加入廣告
- OpenAI奧爾特曼支持腦機接口公司MergeLabs,致力于實現(xiàn)人機智能融合
- OpenAI現(xiàn)場演示翻車?GPT-5發(fā)布會現(xiàn)神圖,奧爾特曼自嘲:圖表重大失誤
- OpenAI推出GPT-5,奧爾特曼盛贊為寫作、編程及人類級推理的最佳模型
- OpenAI發(fā)布開放權(quán)重人工智能模型:采用Apache 2.0開源協(xié)議,支持本地運行
- 生鮮電商Instacart首席執(zhí)行官將于8月18日正式開始執(zhí)掌OpenAI核心業(yè)務(wù)
- 耗資5000億美元的星際之門項目因OpenAI與軟銀內(nèi)部分歧而陷入僵局
- 領(lǐng)先OpenAI三個月,百度文庫GenFlow支持自主調(diào)用數(shù)百Agent、多模內(nèi)容并行生成,2.0版本8月上線
- OpenAI推出新款ChatGPT智能體可以操控整臺電腦并完成任務(wù)
- 被Meta高薪挖角后,OpenAI擬重審薪酬體系
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 中科天璣支持CCF BigData 2025“數(shù)據(jù)智能計算”論壇圓滿召開——攜產(chǎn)界實踐洞見共探智能時代數(shù)據(jù)支撐新路徑
- 百年傳奇煥新:讓“RCA之聲”傳遍中國
- 在胡同與北海間流轉(zhuǎn)的光影 佳能EOS R50 V秋日氛圍感體驗
- 一直戴,一直拍!魅族AI拍攝眼鏡StarV Snap發(fā)布
- “盎銳科技杯”2025建筑機器人技能大賽在滬啟動,助推智能建造實戰(zhàn)人才培養(yǎng)
- 國產(chǎn)芯開行業(yè)新局,至像Z35國產(chǎn)芯系列新品打印機賦能中國打印
- 神眸榮獲快手“品牌標(biāo)桿獎”,以芯片級創(chuàng)新躋身行業(yè)前列
- AMD 推出 EPYC? 嵌入式 4005 處理器,助力低時延邊緣應(yīng)用
人工智能產(chǎn)業(yè)
更多>>- 騰訊啟動AI應(yīng)用繁榮計劃,新一期AI共創(chuàng)營報名企業(yè)超300家
- 首都機場“AI繪空港”大賽完美收官,卓特視覺以技術(shù)賦能創(chuàng)意未來
- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應(yīng)用先導(dǎo)區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案