OpenAI推出GPT4.5研究預(yù)覽版 情商更高、幻覺更少 Altman:下周再增數(shù)萬GPU
2025-02-28 14:53:18AI云資訊671
OpenAI周四在System Card報告中推出OpenAI GPT-4.5的研究預(yù)覽版,這是其迄今最大、知識最豐富的模型,現(xiàn)已向每月訂閱費(fèi)用200美元的ChatGPT Pro訂閱用戶開放。
下周,該模型也將向每月20美元的ChatGPT Plus訂閱用戶開放。OpenAI首席執(zhí)行官Altman表示,屆時該公司將增加數(shù)萬塊GPU,提供算力支撐。
情商更高、幻覺更少
OpenAI表示,在GPT-4o的基礎(chǔ)上,GPT-4.5進(jìn)一步擴(kuò)展了預(yù)訓(xùn)練,并被設(shè)計(jì)成比其強(qiáng)大的stem推理模型更通用。早期測試表明,與GPT-4.5互動感覺更自然。它擁有更廣泛的知識庫,更符合用戶意圖,情商更高,因此非常適合寫作、編程和解決實(shí)際問題等任務(wù),而且幻覺更少。
例如,在面對“我考試失敗了,心情很低落”這樣的輸入時,OpenAI 之前的模型會立即嘗試解決問題。而新模型 GPT-4.5 會先詢問用戶是否想聊聊這個問題,還是需要一些分散注意力的方法。研究人員認(rèn)為,這種回應(yīng)顯示出更高的情感智能。
在早期測試中,該模型的“幻覺率”——即AI系統(tǒng)生成不準(zhǔn)確信息的概率——為37%,相比之下,其前代模型GPT-4o的幻覺率接近60%。OpenAI在博客中表示,
成本太高 Altman:下周再增數(shù)萬GPU 支撐算力
GPT-4.5最初將作為“研究預(yù)覽版”,提供給一小部分軟件開發(fā)者以及支付每月200美元訂閱費(fèi)用的ChatGPT Pro用戶。該公司計(jì)劃從首批試用者那里收集反饋。
OpenAI首席執(zhí)行官Altman也在X平臺發(fā)文說,將在下周正式發(fā)布GPT-4.5的時候增加數(shù)萬塊GPU:
OpenAI在2022年底推出ChatGPT,引發(fā)了生成式AI的狂熱潮流,該工具最初基于GPT-3.5模型運(yùn)行。自那以來,該公司陸續(xù)發(fā)布了一系列日益先進(jìn)的系統(tǒng),包括多個模擬人類推理過程的選項(xiàng)。但OpenAI如今正面臨來自中國新興企業(yè)DeepSeek、馬斯克旗下的xAI以及Anthropic等競爭對手的激烈競爭,這些公司近幾周都相繼推出了新的AI模型。周一,Anthropic發(fā)布了Claude 3.7 Sonnet,而在上周,馬斯克旗下的xAI也推出了最新模型Grok 3。
吹牛吹過頭?基準(zhǔn)測試部分表現(xiàn)不如DeepSeek、Anthropic及o系列模型
在GPT-4.5之前,每一代GPT模型的擴(kuò)展都會帶來跨數(shù)學(xué)、寫作和編程等多個領(lǐng)域的巨大性能提升。然而,從多個跡象來看,單純依賴數(shù)據(jù)和計(jì)算能力的擴(kuò)展所帶來的收益正在逐步減少。在多個AI基準(zhǔn)測試中,GPT-4.5的表現(xiàn)不及DeepSeek、Anthropic以及OpenAI自身開發(fā)的新一代推理模型。
OpenAI研究副總裁Nick Ryder向媒體表示,他預(yù)計(jì)GPT-4.5的能力提升幅度將與GPT-3.5升級至GPT-4時的變化相當(dāng),而GPT-4是在2023年初發(fā)布的。OpenAI強(qiáng)調(diào),GPT-4.5不是GPT-4o的直接替代品,后者仍然是公司API和ChatGPT平臺的主力模型。
從性能上看,GPT-4.5在多個方面超過了GPT-4o及其他許多AI模型。例如,在OpenAI的SimpleQA基準(zhǔn)測試(該測試考察 AI 在處理簡單、事實(shí)性問題時的準(zhǔn)確度)中,GPT-4.5的表現(xiàn)優(yōu)于GPT-4o和OpenAI的推理模型o1、o3-mini。
然而,OpenAI并未公布其最先進(jìn)的AI推理模型deep research在SimpleQA測試中的表現(xiàn)。OpenAI發(fā)言人告訴媒體,公司尚未公開deep research在該基準(zhǔn)測試中的得分,并表示這一對比不具備參考價值。值得注意的是,AI初創(chuàng)公司Perplexity的Deep Research模型在此測試中的表現(xiàn)優(yōu)于GPT-4.5。
在編程能力方面,GPT-4.5在SWE-Bench Verified基準(zhǔn)測試(測試AI在編程問題上的能力)上與GPT-4o和o3-mini表現(xiàn)相當(dāng),但遜色于OpenAI的deep research和Anthropic的Claude 3.7 Sonnet。在SWE-Lancer編程測試(衡量AI生成完整軟件功能的能力)上,GPT-4.5超過了GPT-4o和o3-mini,但仍不及deep research。
在一些學(xué)術(shù)基準(zhǔn)測試(如AIME和 GPQA)上,GPT-4.5的表現(xiàn)不及領(lǐng)先的AI推理模型,如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet(技術(shù)上屬于混合模型)。不過,在數(shù)學(xué)和科學(xué)相關(guān)問題上,GPT-4.5的表現(xiàn)仍然處于領(lǐng)先水平,與其他非推理模型相比表現(xiàn)更優(yōu)。
打造過程充滿挑戰(zhàn)
打造GPT-4.5的過程充滿挑戰(zhàn)。彭博新聞此前報道稱,該模型在公司內(nèi)部被稱為“Orion”,但在去年未能達(dá)到OpenAI設(shè)定的性能基準(zhǔn)。例如,截至去年夏天,Orion在回答其未受訓(xùn)練的編程問題時表現(xiàn)不佳。據(jù)知情人士向媒體透露,OpenAI和其他開發(fā)人員面臨的一個關(guān)鍵問題是如何找到新的、高質(zhì)量的訓(xùn)練數(shù)據(jù)來源,以開發(fā)更先進(jìn)的AI系統(tǒng)。
對此,GPT-4.5采用了與其前代模型(包括 GPT-4、GPT-3、GPT-2 和 GPT-1)相同的核心技術(shù),即在“預(yù)訓(xùn)練”階段大幅增加計(jì)算能力和數(shù)據(jù)量的“無監(jiān)督學(xué)習(xí)”方法。在這一過程中,系統(tǒng)會結(jié)合人類反饋來優(yōu)化回答內(nèi)容,并調(diào)整模型與用戶互動的語氣等。此外,該公司還想出了一些新方法,利用從GPT-4.0訓(xùn)練數(shù)據(jù)中提取的信息來進(jìn)一步訓(xùn)練GPT-4.5。OpenAI研究副總裁Mia Glaese表示,這一方法有助于改進(jìn)模型的整體表現(xiàn)。
分析認(rèn)為,GPT-4.5的發(fā)布標(biāo)志著OpenAI時代的一個轉(zhuǎn)折點(diǎn)。本月早些時候,Altman在X平臺發(fā)文稱,這將是公司推出的最后一個不依賴額外計(jì)算能力來“思考”查詢后再回答的模型。OpenAI已在一些較新的模型(如o1和o3)中采用了這一推理方法。
未來,OpenAI計(jì)劃在今年晚些時候發(fā)布GPT-5,將把GPT系列模型與o系列模型結(jié)合,構(gòu)建能夠自主判斷需要思考多久再生成回答的AI系統(tǒng)。Altman表示,這一目標(biāo)是為了簡化用戶體驗(yàn),讓用戶不必在越來越復(fù)雜的選項(xiàng)列表中進(jìn)行選擇。
目前,OpenAI正在與軟銀(28.21,0.00,0.00%)(SoftBank)及其他投資者洽談融資,計(jì)劃籌集高達(dá)400億美元,使其估值達(dá)到3000億美元(包括新融資在內(nèi))。與此同時,Anthropic也在進(jìn)行一輪約35億美元的融資,估值超過600億美元,兩位知情人士向媒體透露。
相關(guān)文章
- 微軟與OpenAI達(dá)成新協(xié)議,或?yàn)镺penAI上市鋪平道路
- 甲骨文與OpenAI達(dá)成3000億美元“星際之門”項(xiàng)目協(xié)議 或?qū)⒅厮茉朴?jì)算與人工智能未來
- OpenAI攜AI動畫電影《Critterz》進(jìn)軍好萊塢
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時交互
- OpenAI或于2026年推出自研AI芯片
- 馬斯克起訴OpenAI和蘋果公司,指控ChatGPT和蘋果應(yīng)用商店非法壟斷
- OpenAI對盈利模式持開放態(tài)度 ChatGPT負(fù)責(zé)人稱不排除未來加入廣告
- OpenAI奧爾特曼支持腦機(jī)接口公司MergeLabs,致力于實(shí)現(xiàn)人機(jī)智能融合
- OpenAI現(xiàn)場演示翻車?GPT-5發(fā)布會現(xiàn)神圖,奧爾特曼自嘲:圖表重大失誤
- OpenAI推出GPT-5,奧爾特曼盛贊為寫作、編程及人類級推理的最佳模型
- OpenAI發(fā)布開放權(quán)重人工智能模型:采用Apache 2.0開源協(xié)議,支持本地運(yùn)行
- 生鮮電商Instacart首席執(zhí)行官將于8月18日正式開始執(zhí)掌OpenAI核心業(yè)務(wù)
- 耗資5000億美元的星際之門項(xiàng)目因OpenAI與軟銀內(nèi)部分歧而陷入僵局
- 領(lǐng)先OpenAI三個月,百度文庫GenFlow支持自主調(diào)用數(shù)百Agent、多模內(nèi)容并行生成,2.0版本8月上線
- OpenAI推出新款ChatGPT智能體可以操控整臺電腦并完成任務(wù)
- 被Meta高薪挖角后,OpenAI擬重審薪酬體系
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進(jìn)化,技嘉2025線下產(chǎn)品發(fā)布會強(qiáng)勢來襲
- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運(yùn)載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實(shí)現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實(shí)現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項(xiàng)目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅(jiān)暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實(shí)現(xiàn)實(shí)時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案