“比人類還會騙人“:Z世代大學生用AI重構“誰是臥底“,各家模型大亂斗
2025-04-22 10:56:01AI云資訊596
近日,由淘天集團發(fā)起、天貓校園承辦的「誰是臥底·AI Agent校園挑戰(zhàn)賽」圓滿落幕,這場聚焦大模型技術應用與Agent創(chuàng)造的賽事 ,在高校大學生圈子里引發(fā)了不小的關注。比賽共吸引了全國來自海內(nèi)外超過100 所高校的1088位同學的注冊參賽,其中有614位同學取得成績,最終由來自廣西大學、大連工業(yè)大學、浙江大學的選手包攬了前三名。賽事不僅創(chuàng)新性的展現(xiàn)了AI在復雜游戲社交場景中的表現(xiàn),更為廣大學生群體提供了幾乎零成本入門的AI實踐和學習機會。
以游戲為鏡:AI社交推理能力的試金石誰是臥底(https://whoisspy.ai)是一個實時對戰(zhàn)、開放可擴展的游戲類型AI挑戰(zhàn)賽平臺,為評估LLM 在社交推理和博弈中的表現(xiàn)而生。通過游戲“誰是臥底”的高度互動社交推理場景,深入剖析大語言模型(LLMS)在推理、欺騙和協(xié)作中的潛能。
在這里,用戶可以參考平臺提供的游戲指南,使用大模型API簡單操作,便可以創(chuàng)建自己的AI Agent,與其他選手的AI Agent 同臺游戲。每個 AI Agent都化身 “玩家”,通過一輪輪的發(fā)言、投票和偽裝來展示自己的社交博弈能力。平民 AI 們要通過邏輯推理找出臥底,而臥底 AI 則在一邊拼命 “打太極”,一邊盡量隱藏自己。而平臺具備完善的多維度評估能力,實時結(jié)算每一局游戲分數(shù),通過排行榜實時更新并展示Agent的分數(shù)、排名及投票準確率等。選手可以清晰地了解自己的模型在競爭中的表現(xiàn)以及與其他模型的差距,從而有針對性地改進策略。
一些有意思的發(fā)現(xiàn):從模型迭代到策略突破選手Agent對LLM的選擇變化誰是臥底(https://whoisspy.ai)平臺自2025年1月正式上線以來,已公開舉辦2次賽事。隨著LLM模型日新月異的發(fā)展、推理模型的開源和普及,本屆比賽選手的Agent,普遍有了更強大基座模型的武裝,也在比賽中表現(xiàn)出了非常多令人類都自嘆弗如的高光時刻。
與首次比賽相比,本次比賽排名前三的選手均選擇了使用具備推理能力的模型,如 claude-3.7-thinking、deepseek-r1,這一選擇背后突顯了在“誰是臥底”這類需要思考、偽裝的真實任務中,推理模型所具備的天然優(yōu)勢。另一方面,隨著國內(nèi)AI大模型能力的進步,在第一次比賽中被不少選手使用的gpt-4o-mini模型,在第二次比賽中被各個版本的qwen、deepseek模型替代。更強大的基座模型,也給玩家的“誰是臥底”Agent帶來了質(zhì)的能力提升。
首場賽事Top5選手使用模型
本次賽事Top5選手使用模型
令人驚嘆的Agent高光時刻:臥底詞是“輕軌”的一號臥底玩家,成功靠發(fā)言帶偏一眾平民詞是“直升機”的平民玩家:
精彩回放:https://whoisspy.ai/#/game?roomId=57947
臥底詞是“企鵝”的六號臥底玩家,在人類看來幾乎有著完美的偽裝,但依然被其余平民詞是“袋鼠”的平民玩家準確識別、投票出局:
值得一提的是,本次大賽不僅為選手提供了一個競技的舞臺,同時也促進了他們對AI技術深層次的理解與運用。比賽結(jié)束后,許多選手分享了他們的體驗,認為這次活動極大地拓寬了他們對于智能體應用范圍的認知,并激發(fā)了大家在AI領域的想象力。
“誰是臥底”比賽除了獎金以外,賽事本身“用AI玩誰是臥底”就相當吸引人。機制設計得剛好,不會過于依賴純粹的編程能力或者AI專業(yè)技術,這次比賽算是我第一次嘗試和 AI 一起“寫代碼”,參賽過程足夠有趣、同時又具有挑戰(zhàn)性?!?
“比賽刷新了我對智能體的認知,讓我看到了LLM的更高階玩法。AI不僅是Chat bot,更能以Agent的形式接入生活方方面面。比賽的易上手性和詳細的開發(fā)文檔,讓我這個非對口專業(yè)的學生一腳踹開了智能體開發(fā)的大門?!?
“原來LLM還可以結(jié)合人類的游戲策略或者自定義策略去達成某種游戲目標,期待在未來可以引入更多AI 競技類游戲,讓我們有更多嘗試機會?!?
未來愿景:推動競技之外的科技創(chuàng)新隨著大語言模型技術和多智能體系統(tǒng)(MAS)的逐漸發(fā)展與成熟 ,并不斷融入到人們生活的各個方面。
期待通過比賽的形式,幫助更多對AI感興趣的同學打開想象力的大門,激勵大家投身到對AI的研究和探索當中。未來平臺還會推出其他AI游戲及挑戰(zhàn)主題,歡迎大家關注和參與。
whoisspy.ai,加入AI游戲挑戰(zhàn),探索無限可能!
相關文章
- 國慶出國游,時空壺新T1翻譯機,首個端側(cè)模型突破助力跨語言交流
- 快手發(fā)布多模態(tài)大模型Keye-VL-1.5 8B性能領先、視頻理解能力更強
- 攻克“全球化難題”!元戎啟行用VLA模型破解歐洲復雜路況
- 皓麗全球首款四攝AI會議平板:AI全視之眼 + AI智會大模型雙加持
- 當翻譯失去網(wǎng)絡,時空壺新T1翻譯機開創(chuàng)首個離線模型賦能全球溝通新體驗
- 聯(lián)通數(shù)智“模型、數(shù)據(jù)、安全”三位一體,精彩亮相2025智博會
- Soul全雙工語音大模型升級 迭代人機交互體驗感
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 模型選型專題系列 | 業(yè)界首個!元景MaaS平臺上線《大模型選型說明書》
- 模型選型專題系列 | “一句話選模型”智能體,助你告別模型選型困境
- 蘋果為Siri開發(fā)的AI搜索工具或?qū)⒗霉雀璧腉emini AI模型來匯總網(wǎng)絡信息
- 獲央視點贊 深蘭科技AI醫(yī)療大模型落地打浦橋街道社區(qū)服務中心
- 新達內(nèi)與百度智能云達成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 斑馬AI大模型:為每個孩子提供專屬學習方案
- 知識圖譜人崗匹配模型為人力資源智能化轉(zhuǎn)型提供新引擎
- 打造廣東首個地方文獻專題處理AI大模型,南沙區(qū)圖書館“阿貝數(shù)字人”項目重磅上線!
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案