精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

OpenAI現(xiàn)場演示翻車?GPT-5發(fā)布會現(xiàn)神圖,奧爾特曼自嘲:圖表重大失誤

2025-08-08 06:48:23AI云資訊1919

(AI云資訊消息)在北京時間8月8日凌晨舉行的GPT-5重磅直播發(fā)布會上,OpenAI展示的多組數(shù)據(jù)圖表看似彰顯了模型的卓越性能,但細(xì)看之下,部分圖表卻出現(xiàn)了令人啼笑皆非的烏龍。

最具諷刺意味的是一張展示各模型欺騙評估表現(xiàn)的圖表:縱坐標(biāo)刻度混亂不堪。例如在代碼欺騙指標(biāo)中,現(xiàn)場演示顯示GPT-5思考版取得50.0%的欺騙率,但對比參照的OpenAI自家o3小模型47.4%的數(shù)值時,o3小模型柱狀圖反而顯示更長。有趣的是,OpenAI在官方博客中公布的準(zhǔn)確數(shù)據(jù)顯示,GPT-5實際欺騙率應(yīng)為16.5%。

在這張引發(fā)爭議的圖表中,OpenAI現(xiàn)場演示出現(xiàn)了一個明顯悖論:GPT-5某項評分明明低于o3模型,對應(yīng)的柱狀圖卻顯示更長。更離譜的是,o3與GPT-4o的評分?jǐn)?shù)值不同,圖表中卻呈現(xiàn)為等長柱狀。如此嚴(yán)重的可視化失誤,連CEO薩姆·奧爾特曼都忍不住吐槽這是史詩級圖表翻車,不過他隨即澄清官網(wǎng)博客已發(fā)布正確版本。

目前,OpenAI尚未就此事置評。雖然尚不確定這些圖表是否由GPT-5生成,但在新品發(fā)布的重要時刻出現(xiàn)如此紕漏,對公司形象著實不利,尤其當(dāng)OpenAI正大力宣傳其新模型在減少幻覺方面取得重大突破之際,這樣的失誤顯得格外諷刺。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews