昆侖萬維「天工大模型4.0」o1版(Skywork o1)正式啟動邀請測試
2024-11-27 14:32:44AI云資訊208120
今天,昆侖萬維正式推出具有復雜思考推理能力的系列模型——「天工大模型4.0」 o1版(Skywork o1)。
Skywork o1是由昆侖萬維集團發(fā)布的具有慢思考推理能力的系列模型。這是國內第一款中文邏輯推理能力的o1模型。不同于現有的復現OpenAI o1模型的工作,Skywork o1不僅在模型輸出上內生了思考、計劃、反思等能力,同時,該開源模型在標準評測集上,對比普通模型推理能力大幅上升,真正讓模型擁有了思考和反思帶來的推理能力的提升。團隊復現o1的技術路線,使得初始推理能力較差的基座模型在基準測試集上成為生態(tài)位SOTA。
此次發(fā)布的Skywork o1包括三款模型,既有回饋開源社區(qū)的開放版本,也有能力更強的專用版本:
1,Skywork o1 Open:一款基于Llama 3.1 8B的開源模型,該模型在同生態(tài)位開源模型中評測指標大幅提升達到SOTA水平,并解鎖了許多輕量級模型無法解決的復雜數學任務。該模型的發(fā)布也將幫助加速國內開源社區(qū)復現o1的進程。
2,Skywork o1 Lite:該模型具備完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在數學、中文邏輯和推理類問題上表現突出。
3,Skywork o1 Preview:這款模型是本次完整版的推理模型,搭配自研的線上推理算法,對比Skywork o1 Lite有著更多樣和“深度”的思考過程,更完善和更高質量的推理。
其中,我們開源的Skywork o1 Open,在各項數學和代碼指標上均有大幅提高,將Llama-3.1-8B的性能拉到同生態(tài)位SOTA(超越Qwen-2.5-7B instruct)。同時,8B的Skywork o1 Open也解鎖了很多較大量級模型,如GPT 4o,無法完成的數學推理任務(如24點計算)。這也為推理模型在輕量級設備上部署提供了可能性。
同時,我們也將開源兩個推理任務的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前開源的Skywork-Reward-Model僅對整個模型回答進行打分,Skywork o1 Open-PRM能給模型回答中的每個步驟進行打分。
對比開源社區(qū)現有的PRM,Skywork o1 Open-PRM-1.5B能達到開源社區(qū)8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同時在大部分benchamrk上接近/超過10倍量級的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款適配代碼類任務的開源PRM。下面表格為以Skywork-o1-Open-8B作為基礎模型,使用不同PRM在數學和代碼評測集上的評估結果。
除Skywork-o1-Open-PRM外,其他開源PRM均未針對代碼類任務進行專門優(yōu)化,故不進行代碼任務的相關對比。
詳細技術報告也將在不久后發(fā)布。目前模型和相關介紹在Huggingface開源(開源地址:https://tinyurl.com/skywork-o1)
強推理以及自我反思的能力是如何練成的?
Skywork o1在邏輯推理任務上性能的大幅提升得益于天工三階段自研的訓練方案:
1,推理反思能力訓練:通過自研的多智能體體系構造高質量的分步思考,反思和驗證數據。通過高質量的、多樣性的長思考數據對基座模型進行繼續(xù)預訓練和監(jiān)督微調。,
2,推理能力強化學習:團隊研發(fā)了最新的適配分步推理強化的Skywork o1 Process Reward Model(PRM)。實驗證明Skywork-PRM可有效的捕捉到復雜推理任務中間步驟和思考步驟對最終答案的影響。結合自研分步推理強化算法進一步加強模型推理和思考能力。
3,推理planning:基于天工自研的Q*線上推理算法配合模型在線思考,并尋找最佳推理路徑。這也是全球首次將Q*算法實現和公開。Q*算法落地也大大提升了模型線上推理能力。
關于天工 Q*算法,更多詳情可見:https://arxiv.org/abs/2406.14283
亮點功能與實測
Skywork o1模型具有以下能力和亮點功能:
1,模型思考和規(guī)劃能力
2,模型自我反思能力
3,模型自我驗證能力
相較于此前(長文本任務)大模型,無論是常識推理問題、邏輯推理問題、數學推理問題、倫理決策問題、還是“弱智”(類似腦筋急轉彎)邏輯陷阱問題等,Skywork o1都處理的游刃有余。整體來說,Skywork o1 Lite和Skywork o1 Preview線上版本在復雜問題分析、思考反思過程、輸出答案質量上均有大幅提升。
首先,我們拿一道「2024年全國碩士研究生入學統(tǒng)一考試數學(一)試題」考考它(如下圖所示),測試一下它的“智力水平”。
面對難度不小的最新考研數學題,Skywork o1 Preview盡管花費了一些時間,但還是一步步推理出了正確結果。
那么,之前大模型經常翻車的比大小問題,Skywork o1現在的回答水平如何了?
從它的思考過程可以看出,Skywork o1的模型思考和規(guī)劃能力大幅提升。這個解題邏輯非常像人類的思考方法了,“如果整數部分相同,那么就要開始比較小數部分了”。通過嚴謹的推理過程,準確得出8.8大于8.11,且多給出了一步差值計算。
此外,模型自我反思能力和自我驗證能力也都有長足進步。Skywork o1可以準確識別出“nǐ hǎo hěn gāo xìng rèn shí nǐ”,還可以給出后續(xù)對話建議。
盡管我們讓它回答存在中文讀音“陷阱”的問題——“請將qíng rén yǎn lǐ chū xī shī轉換為中文”,它也沒有被我們繞進去。充分展示了中文邏輯問題思考中的反思能力,它主動發(fā)現了“西詩”是不對的說法,而是“西施”。
同樣的,對于之前的大模型來說,“算24點”的游戲很容易把模型搞崩潰了,但是對于Skywork o1來說,可謂是小菜一碟。它不僅給出了正確答案,重點是它在過程中進行了「自我驗證」。它在計算過后,又檢查了一遍,確認過程和答案全部符合命題要求,才給出最終答案。
除了上述給出的數學推理、比大小、中文邏輯以及24點計算的任務外,Skywork o1在其他復雜的場景也有較好表現:
競賽數學:Skywork o1拿到2024 AIME第一題(如下圖所示),也從容應對。計算邏輯清晰、公式展示流暢,計算時長也明顯具有優(yōu)勢。
密碼解密:在復雜密碼解密任務中,Skywork o1擁有強大的自我探索和推理能力。
在已知「原文→密文」的前提下,經過一系列復雜推理后成功給出答案(如下圖所示)。
如果反過來呢?已知一段「密文→原文」,能否找出新密文所對應的原文。Skywork o1表示小菜一碟。
智力問答:在復雜的中文推理問題上,Skywork o1表現優(yōu)異,并給出了完整的思考鏈路。
最后,再讓我們再給他出一些有趣的“弱智”問題,來看看它的回答是不是合理。
1,為什么我爸媽結婚的時候沒邀請我參加婚禮?
2,被門夾過的核桃,還能補腦嗎?
3,午餐肉,我可以晚上吃嗎?
令人驚喜的是,Skywork o1不但沒有被問題繞進去,還分析的頭頭是道,甚至透露出“大智慧”,引申出了一些更底層的思考。
進階版的復雜人類思考能力的解鎖也將進一步在垂類領域增強大模型的應用,例如:
1,中英文常見邏輯推理和復雜任務,如數學/代碼類任務,科學研究
2,高質量內容生成,如創(chuàng)意寫作,行業(yè)報告寫作
3,深度搜索,解鎖復雜搜索任務的拆解
2024年以來,昆侖萬維天工AI持續(xù)進化,陸續(xù)發(fā)布了「天工2.0」、「天工3.0」、「天工大模型4.0」4o版——Skywork 4o,以及今天正式發(fā)布的「天工大模型4.0」 o1版(Skywork o1),不僅是我們貫徹“All in AGI 與 AIGC” 戰(zhàn)略的重要舉措,更是我們構建AI技術棧的重要一步。我們將秉持“實現通用人工智能,讓每個人更好地塑造和表達自我”的使命,從模型層、應用層等全方位、多維度來構建公司技術競爭力和生態(tài)矩陣。
相關文章
- 昆侖萬維「Matrix-Game 2.0」發(fā)布,國產開源的Genie 3來啦!
- 昆侖萬維技術周啟幕:SkyReels模型重塑內容創(chuàng)作基建
- 昆侖萬維天工超級智能體APP上線后爆火!全球首款Office智能體APP,開啟AI辦公新時代
- 昆侖萬維天工超級智能體APP今日正式上線!全球首款Office智能體APP,開啟AI辦公新時代
- 昆侖萬維正式開源Matrix-Game:從圖像出發(fā)構建可控交互世界,重塑交互式世界生成標桿
- 昆侖萬維開源R1V視覺思維鏈推理模型,開啟多模態(tài)思考新時代
- 昆侖萬維開源中國首個面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1,重塑AI短劇行業(yè)格局
- 昆侖萬維發(fā)布Matrix-Zero世界模型,開啟空間智能新時代
- 昆侖萬維旗下天工AI正式上線DeepSeek R1+聯(lián)網搜索
- 昆侖萬維「天工大模型4.0」o1版(Skywork o1)正式啟動邀請測試
- 昆侖萬維推出「天工大模型4.0」4o版(Skywork 4o),實時語音對話助手Skyo上線在即
- 昆侖萬維重磅發(fā)布天工AI高級搜索功能,做最懂金融投資、科研學術的AI搜索
- AI視頻ChatGPT時刻到來,昆侖萬維發(fā)布全球首款AI短劇平臺
- 全球首發(fā)!昆侖萬維重磅推出AI流媒體音樂平臺Melodio
- 擁抱國產大模型,云捷亮數AI產品全面遷移至昆侖萬維天工開放平臺
- 昆侖萬維開源2千億稀疏大模型天工MoE,全球首創(chuàng)能用4090推理
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術雙重進化,技嘉2025線下產品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球對話
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產業(yè)鏈展主題發(fā)布
- 北京數基建發(fā)布“知行IntAct”混合智能體產品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數據價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉型“最優(yōu)解”
- 腦神經成像提速數倍、AI練就“遺忘術”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數據處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現分鐘級專業(yè)軟件交付