精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

模型選型專題系列 | 業(yè)界首個!元景MaaS平臺上線《大模型選型說明書》

2025-09-05 18:15:11AI云資訊2284

當前業(yè)內有很多語言模型,我們如何在實際應用中去選擇最合適的一款呢?雖然有模型性能的評測基準,但主要關注多語言理解(MMLU)、寫作(WritingBench)、邏輯推理(AutoLogi)、數(shù)學(AIME)、代碼(LiveCodeBench)等方面的通用能力,通常與實際應用場景不匹配。

在實體經(jīng)濟應用場景中,性能最好的模型并非總是最合適的,還需綜合考慮推理成本等因素,以實現(xiàn)最高性價比,避免“用大炮打蚊子”。例如,開發(fā)短信反詐服務、辦公助手、手機操控智能體時,分別選擇什么樣的模型才能兼顧性能和成本?業(yè)界還沒有通用的方法論,通常會經(jīng)歷反復試錯。

針對以上痛點,中國聯(lián)通數(shù)據(jù)科學與人工智能研究院以“能力-場景”雙向驅動,在自研的模型能力邊界量化基礎上,梳理大模型常見應用場景,構建“典型模型-能力類別-能力等級-應用場景”映射圖譜,形成《大模型選型說明書》。為開發(fā)者提供權威、透明、便捷的選型指導,已助力多場景應用落地,現(xiàn)已在元景MaaS平臺發(fā)布,將經(jīng)驗與業(yè)界共享。

《大模型選型說明書》界面預覽

能力和場景精準匹配

首先,調研業(yè)界主流大模型評測基準中的能力分類方法,剖析現(xiàn)有能力評估與實際應用需求之間的鴻溝。其次,依托深厚的落地實踐積淀,梳理出105個典型的大模型應用場景。結合典型應用場景,提出一種新的大模型能力分類方法,歸納為5大類、27小類;并將每類能力劃分為三個等級,包含初級、中級和高級。最后,通過分析模型的能力類別、能力等級與應用場景之間的依賴關系,構建了大模型“能力類別-能力等級-應用場景”關系映射圖,如下所示。

語言大模型“能力類別-能力等級-應用場景”關系映射圖

典型模型能力等級評定

針對5大類、27小類模型能力,構建了豐富的評測樣本集,對業(yè)界超30款主流模型進行測試、打分、統(tǒng)計和分析,給出模型在每個能力類別上的得分,評定模型能力等級。詳細評測結果已上線元景MaaS平臺,其中部分結果如下圖所示。

典型模型能力評測結果展示

選型使用說明書構建

基于模型能力等級評定結果,結合“能力類別-能力等級-應用場景”關系圖譜,建立超30款典型模型與105個典型應用場景間的匹配關系,形成“典型模型-能力類別-能力等級-應用場景”關系圖譜,作為《大模型選型說明書》,部分內容如下所示。

“典型模型-能力類別-能力等級-應用場景”關系圖譜

應用賦能和迭代更新

《大模型選型說明書》作為業(yè)界首個語言大模型選型經(jīng)驗指南,一方面可以幫助開發(fā)者根據(jù)應用場景找到兼顧性能和成本的高性價比模型,另一方面提供了每個模型能勝任的典型應用場景,為模型選型決策提供經(jīng)驗參考,極大降低大模型開發(fā)應用技術門檻。

目前,已賦能電信反詐、智能工單、客服助手、手機自動駕駛、深度研究等超20個應用場景落地。未來,中國聯(lián)通數(shù)據(jù)科學與人工智能研究院將持續(xù)擴充評測模型庫和典型應用場景,動態(tài)更新《大模型選型說明書》,確保其始終反映技術前沿與市場變化。

聯(lián)通元景大模型將繼續(xù)秉承“多模共生、普惠速成、場景深耕、數(shù)智融合、安全自主”五大特性,構建多模共生的模型家族,打造普惠速成的MaaS平臺,開發(fā)場景深耕的智能體應用,助力千行百業(yè)實現(xiàn)智能化升級,加速人工智能+的推廣應用,讓人工智能更簡單。

相關文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產業(yè)

更多>>

人工智能技術

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews