模型選型專題系列 | 業(yè)界首個!元景MaaS平臺上線《大模型選型說明書》
2025-09-05 18:15:11AI云資訊2284
當前業(yè)內有很多語言模型,我們如何在實際應用中去選擇最合適的一款呢?雖然有模型性能的評測基準,但主要關注多語言理解(MMLU)、寫作(WritingBench)、邏輯推理(AutoLogi)、數(shù)學(AIME)、代碼(LiveCodeBench)等方面的通用能力,通常與實際應用場景不匹配。
在實體經(jīng)濟應用場景中,性能最好的模型并非總是最合適的,還需綜合考慮推理成本等因素,以實現(xiàn)最高性價比,避免“用大炮打蚊子”。例如,開發(fā)短信反詐服務、辦公助手、手機操控智能體時,分別選擇什么樣的模型才能兼顧性能和成本?業(yè)界還沒有通用的方法論,通常會經(jīng)歷反復試錯。
針對以上痛點,中國聯(lián)通數(shù)據(jù)科學與人工智能研究院以“能力-場景”雙向驅動,在自研的模型能力邊界量化基礎上,梳理大模型常見應用場景,構建“典型模型-能力類別-能力等級-應用場景”映射圖譜,形成《大模型選型說明書》。為開發(fā)者提供權威、透明、便捷的選型指導,已助力多場景應用落地,現(xiàn)已在元景MaaS平臺發(fā)布,將經(jīng)驗與業(yè)界共享。
《大模型選型說明書》界面預覽
能力和場景精準匹配
首先,調研業(yè)界主流大模型評測基準中的能力分類方法,剖析現(xiàn)有能力評估與實際應用需求之間的鴻溝。其次,依托深厚的落地實踐積淀,梳理出105個典型的大模型應用場景。結合典型應用場景,提出一種新的大模型能力分類方法,歸納為5大類、27小類;并將每類能力劃分為三個等級,包含初級、中級和高級。最后,通過分析模型的能力類別、能力等級與應用場景之間的依賴關系,構建了大模型“能力類別-能力等級-應用場景”關系映射圖,如下所示。
語言大模型“能力類別-能力等級-應用場景”關系映射圖
典型模型能力等級評定
針對5大類、27小類模型能力,構建了豐富的評測樣本集,對業(yè)界超30款主流模型進行測試、打分、統(tǒng)計和分析,給出模型在每個能力類別上的得分,評定模型能力等級。詳細評測結果已上線元景MaaS平臺,其中部分結果如下圖所示。
典型模型能力評測結果展示
選型使用說明書構建
基于模型能力等級評定結果,結合“能力類別-能力等級-應用場景”關系圖譜,建立超30款典型模型與105個典型應用場景間的匹配關系,形成“典型模型-能力類別-能力等級-應用場景”關系圖譜,作為《大模型選型說明書》,部分內容如下所示。
“典型模型-能力類別-能力等級-應用場景”關系圖譜
應用賦能和迭代更新
《大模型選型說明書》作為業(yè)界首個語言大模型選型經(jīng)驗指南,一方面可以幫助開發(fā)者根據(jù)應用場景找到兼顧性能和成本的高性價比模型,另一方面提供了每個模型能勝任的典型應用場景,為模型選型決策提供經(jīng)驗參考,極大降低大模型開發(fā)應用技術門檻。
目前,已賦能電信反詐、智能工單、客服助手、手機自動駕駛、深度研究等超20個應用場景落地。未來,中國聯(lián)通數(shù)據(jù)科學與人工智能研究院將持續(xù)擴充評測模型庫和典型應用場景,動態(tài)更新《大模型選型說明書》,確保其始終反映技術前沿與市場變化。
聯(lián)通元景大模型將繼續(xù)秉承“多模共生、普惠速成、場景深耕、數(shù)智融合、安全自主”五大特性,構建多模共生的模型家族,打造普惠速成的MaaS平臺,開發(fā)場景深耕的智能體應用,助力千行百業(yè)實現(xiàn)智能化升級,加速人工智能+的推廣應用,讓人工智能更簡單。
相關文章
- 國慶出國游,時空壺新T1翻譯機,首個端側模型突破助力跨語言交流
- 快手發(fā)布多模態(tài)大模型Keye-VL-1.5 8B性能領先、視頻理解能力更強
- 攻克“全球化難題”!元戎啟行用VLA模型破解歐洲復雜路況
- 皓麗全球首款四攝AI會議平板:AI全視之眼 + AI智會大模型雙加持
- 當翻譯失去網(wǎng)絡,時空壺新T1翻譯機開創(chuàng)首個離線模型賦能全球溝通新體驗
- 聯(lián)通數(shù)智“模型、數(shù)據(jù)、安全”三位一體,精彩亮相2025智博會
- Soul全雙工語音大模型升級 迭代人機交互體驗感
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 模型選型專題系列 | 業(yè)界首個!元景MaaS平臺上線《大模型選型說明書》
- 模型選型專題系列 | “一句話選模型”智能體,助你告別模型選型困境
- 蘋果為Siri開發(fā)的AI搜索工具或將利用谷歌的Gemini AI模型來匯總網(wǎng)絡信息
- 獲央視點贊 深蘭科技AI醫(yī)療大模型落地打浦橋街道社區(qū)服務中心
- 新達內與百度智能云達成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 斑馬AI大模型:為每個孩子提供專屬學習方案
- 知識圖譜人崗匹配模型為人力資源智能化轉型提供新引擎
- 打造廣東首個地方文獻專題處理AI大模型,南沙區(qū)圖書館“阿貝數(shù)字人”項目重磅上線!
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
- 筑牢安全芯基石,紫光同芯無線充電鑒權芯片T9系列亮相2025(秋季)亞洲充電展
- 中國移動將支持eSIM全系產品,釋放成長新動能
- 晟聯(lián)科:以高速互連接口IP方案賦能Scale-up 生態(tài)
人工智能產業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案