CVPR2025:中科視語發(fā)布首個具身物理空間大模型PhysVLM!戰(zhàn)略布局“AI+機(jī)器人”新生態(tài)
2025-03-19 10:30:35AI云資訊82276
在人工智能技術(shù)加速向具身智能(Embodied AI)演進(jìn)的關(guān)鍵節(jié)點,中科視語重磅發(fā)布其最新前沿成果——PhysVLM(首個機(jī)器人物理空間具身大模型),作為具身智能領(lǐng)域的里程碑式突破,PhysVLM 率先實現(xiàn) “環(huán)境感知-本體理解-決策執(zhí)行” 全鏈條技術(shù)閉環(huán),通過多模態(tài)感知、動態(tài)環(huán)境建模、自主決策規(guī)劃的深度融合,賦予機(jī)器人在復(fù)雜物理空間的類人級操作能力。
作為首創(chuàng)“環(huán)境感知、本體理解、決策執(zhí)行”全鏈條技術(shù)突破的AI企業(yè),中科視語以PhysVLM的發(fā)布為起點,正逐步構(gòu)筑面向工業(yè)4.0、智慧交通、具身機(jī)器人等領(lǐng)域的核心技術(shù)底座,重新定義“AI+機(jī)器人”協(xié)同發(fā)展新范式。
物理感知革命,機(jī)器人也懂“分寸感”!
隨著視覺語言模型(VLM)的快速發(fā)展,機(jī)器人已能精準(zhǔn)理解場景語義,但 “看懂” 不等于 “能做”。傳統(tǒng)模型普遍缺乏對機(jī)器人自身物理約束的感知能力,導(dǎo)致其在工業(yè)、智慧城市等復(fù)雜場景中頻繁出現(xiàn)“越界操作”,如機(jī)械臂試圖抓取超出其可達(dá)范圍的物體,或因未考慮關(guān)節(jié)限位而引發(fā)機(jī)械故障。這種 “感知與決策割裂” 的問題,已成為制約具身智能規(guī)?;涞氐年P(guān)鍵瓶頸。
針對這一挑戰(zhàn),中科視語創(chuàng)新性地提出首個機(jī)器人物理空間具身大模型,通過創(chuàng)新的空間-物理約束表征的學(xué)習(xí)范式,有效整合了對環(huán)境的視覺理解和對具身智能體的物理空間約束感知,通過三大維度的突破,實現(xiàn)了從 “環(huán)境感知” 到 “可靠行動” 的質(zhì)的飛躍。
構(gòu)建“空間感知-物理約束”雙輪驅(qū)動決策體系
具身空間-物理約束建模,打破平臺壁壘
首創(chuàng)空間- 物理約束映射(S-P Map)技術(shù),將機(jī)械臂的幾何參數(shù)、關(guān)節(jié)運(yùn)動范圍等物理約束轉(zhuǎn)化為可學(xué)習(xí)的視覺語義表征。通過這種 “物理約束視覺化” 的方法,模型無需依賴具體機(jī)器人參數(shù)即可實現(xiàn)跨平臺泛化,為構(gòu)建通用型具身智能奠定了基礎(chǔ)。
視覺-物理空間協(xié)同推理,重塑決策邏輯
采用視覺- 物理雙編碼器架構(gòu):主視覺分支保留開放域場景理解能力,物理約束分支專注于可達(dá)性分析。通過多模態(tài)融合模塊和對齊模塊,模型能夠?qū)崟r權(quán)衡環(huán)境語義與物理可行性,生成 “既看得懂又做得到” 的動作規(guī)劃。例如,當(dāng)識別到目標(biāo)物體超出當(dāng)前機(jī)械臂范圍時,系統(tǒng)會自動規(guī)劃 “移動底盤靠近目標(biāo)” 的分步策略。
百萬級數(shù)據(jù)集,定義行業(yè)標(biāo)準(zhǔn)
中科視語研究團(tuán)隊構(gòu)建了包含6類工業(yè)機(jī)械臂、10萬組操作場景的基準(zhǔn)數(shù)據(jù)集,涵蓋RGB圖像—可達(dá)物理空間圖(S-P Map)—具身物理問答三元組數(shù)據(jù)。配套開發(fā)的EQA-phys評估基準(zhǔn)包含帶有4類工業(yè)機(jī)械臂的仿真環(huán)境和問答數(shù)據(jù),為具身智能的物理認(rèn)知提供了量化評估基準(zhǔn)。
實驗結(jié)果表明,PhysVLM在EQA-phys上的性能比GPT-4o高出14%,在RoboVQA-val和OpenEQA等基準(zhǔn)測試中也超過了RoboMamba和SpatialVLM等先進(jìn)的具身VLM。此外,S-P Map與各種VLM高度兼容,集成到GPT-4o-mini后,提升了7.1%的可達(dá)性理解任務(wù)性能。
戰(zhàn)略布局:“三維框架”引領(lǐng)從感知到具身智能跨越
中科視語始終以前瞻性眼光,致力于將先進(jìn)的通用視覺技術(shù)與機(jī)器人實際操作深度融合,此次發(fā)布的PhysVLM作為重要戰(zhàn)略成果,以“三維戰(zhàn)略框架”構(gòu)筑堅實的產(chǎn)業(yè)壁壘:
視語坤川®通用視覺大模型:中科視語經(jīng)過多次技術(shù)升級與迭代,構(gòu)建了多模態(tài)大語言模型(MLLM),融合大語言模型的基礎(chǔ)能力,結(jié)合了視語多年面向行業(yè)的人工智能視覺解決方案經(jīng)驗,具備超強(qiáng)的視覺感知能力,并進(jìn)一步支持了原生的視覺理解與推理。
具身智能核心算法:中科視語宣布正式開源PhysVLM(首個機(jī)器人物理空間具身大模型),實現(xiàn) “環(huán)境感知-本體理解-決策執(zhí)行” 全鏈條技術(shù)閉環(huán),為工業(yè)、智慧交通等場景提供安全可靠的決策支撐,為具身智能領(lǐng)域開辟了新路徑。
行業(yè)場景深度融合:中科視語具備20余年行業(yè)專業(yè)知識儲備及成熟的行業(yè)落地經(jīng)驗,聚焦工業(yè)、交通、具身機(jī)器人等高價值場景,推動技術(shù)落地。
行業(yè)融合加速推進(jìn),打造“AI+機(jī)器人”協(xié)同生態(tài)圈
目前,PhysVLM已在多個高價值領(lǐng)域形成實際應(yīng)用并取得顯著成果,尤其在工業(yè)4.0、智慧交通、具身機(jī)器人等領(lǐng)域展現(xiàn)出突出商業(yè)價值。
在工業(yè)領(lǐng)域,中科視語智能焊接機(jī)器人,在工業(yè)焊接、噴涂等精密作業(yè)場景中,突破傳統(tǒng)機(jī)械臂常因路徑規(guī)劃粗放導(dǎo)致碰撞風(fēng)險高、生產(chǎn)效率低。中科視語創(chuàng)新推出(S-P Map)模型,通過三維空間動態(tài)建模與智能視覺路徑規(guī)劃雙重引擎,實現(xiàn)機(jī)械臂作業(yè)效率與安全性的革命性提升。
在交通領(lǐng)域,中科視語智能勸導(dǎo)機(jī)器人,在城市交通治理智能化升級的浪潮中,以“AI + 混合模態(tài)感知” 技術(shù)重構(gòu)非機(jī)動車監(jiān)管模式。該產(chǎn)品通過實時識別違規(guī)行為、動態(tài)路徑規(guī)劃及智能語音勸導(dǎo),實現(xiàn)交通監(jiān)管效率提升 40%、事故率下降 35%,為智慧城市交通治理提供 “零接觸、全時段、高精度” 的創(chuàng)新解決方案?;诖舜伟l(fā)布的最新成果,PhysVLM已初步實現(xiàn)跨機(jī)器人、跨行業(yè)、跨場景的泛化應(yīng)用能力,逐漸形成產(chǎn)業(yè)級的技術(shù)壁壘,為工業(yè)4.0、智慧城市與服務(wù)機(jī)器人市場帶來新的產(chǎn)業(yè)機(jī)遇。
相關(guān)文章
- 中科視語重磅發(fā)布 LightPlanner!首個開源輕量化具身推理大模型,打破機(jī)器人輕量與推理能力困局
- CVPR2025:中科視語發(fā)布首個具身物理空間大模型PhysVLM!戰(zhàn)略布局“AI+機(jī)器人”新生態(tài)
- 中科視語入選甲子光年《2025 中國AI Agent行業(yè)研究報告》
- 中科視語榮獲國家級專精特新“小巨人”企業(yè)稱號
- ECCV 2024:開放視覺語義理解領(lǐng)域領(lǐng)航者,中科視語卓越技術(shù)再獲全球第一
- 中科視語聯(lián)合創(chuàng)始人張臘:擁抱澎湃算力,加速大模型場景落地
- 中科視語與北京市體育科學(xué)研究所聯(lián)合研發(fā)運(yùn)動訓(xùn)練平臺,入選首批北京市人工智能應(yīng)用場景
- CVPR 2024:中科視語領(lǐng)跑工業(yè)大模型,工業(yè)混合專家模型再奪桂冠
- 實力再證丨中科視語榮獲2024數(shù)字中國創(chuàng)新大賽交通大模型典型應(yīng)用場景獎
- 中科視語榮登「2024中國AI大模型產(chǎn)業(yè)應(yīng)用場景創(chuàng)新實踐」榜單
- 中科視語提出工業(yè)異常檢測大模型AnomalyGPT,實現(xiàn)零樣本異常檢測
- 中科視語AI智慧平臺助力干熄焦安全生產(chǎn)
- 中科視語出席2024AI創(chuàng)生大會,共話AI驅(qū)動下的商業(yè)模式變革
- 卓越再續(xù)丨中科視語蟬聯(lián)“AI+智慧交通優(yōu)秀企業(yè)”稱號
- 共探行業(yè)創(chuàng)新風(fēng)向丨中科視語亮相鯤鵬昇騰開發(fā)者大會2024
- 中科視語亮相2024中關(guān)村論壇,共論大模型驅(qū)動行業(yè)創(chuàng)新與發(fā)展
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 當(dāng)“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運(yùn)載無人機(jī)的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機(jī)新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機(jī)器人將超2000臺,眾擎機(jī)器人與多倫科技達(dá)成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學(xué)品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
- 筑牢安全芯基石,紫光同芯無線充電鑒權(quán)芯片T9系列亮相2025(秋季)亞洲充電展
人工智能產(chǎn)業(yè)
更多>>- 人機(jī)共生 · 智啟未來——2025高交會亞洲人工智能與機(jī)器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達(dá)“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓(xùn)營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學(xué)院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強(qiáng)技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準(zhǔn)
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學(xué)習(xí)方案