精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

群核科技空間理解模型SpatialLM技術報告發(fā)布,3D空間識別精度達全球領先水平

2025-06-24 15:39:03AI云資訊976

近日,空間理解模型SpatialLM發(fā)布首份技術報告,該模型來自于空間智能公司群核科技。 據悉,該模型于今年3月正式開源,并在開源后迅速與DeepSeek-V3、Qwen2.5-Omni一起登上全球最大的開源社區(qū)HuggingFace全球趨勢榜前三。

圖說:來自杭州的三個大模型共同登榜HuggingFace全球趨勢榜前三

作為一款將大語言模型擴展到3D空間理解任務中的模型,SpatialLM能從3D點云輸入生成結構化的空間場景描述,這一過程突破了大語言模型對物理世界幾何與空間關系的理解局限,讓機器具備空間認知與推理能力,為具身智能等相關領域提供空間理解基礎訓練框架。

在開源后經過廣泛的實際驗證,本次技術報告聚焦SpatialLM 1.1升級版本,其不僅包含了詳細的消融實驗與訓練配方,還在點云編碼方式、分辨率、用戶指定識別類目等維度上實現(xiàn)優(yōu)化。多項基準測試數據顯示:該模型在任務數據集微調后,在空間布局識別、3D物體檢測任務中,均達到了相比與最新專業(yè)模型持平或更優(yōu)的效果。

圖說:SpatialLM1.1 在戶型、物體檢測任務中與SOTA方法的跑分對比

本次報告重點圍繞算法框架和訓練數據兩方面展開。在算法架構層面,SpatialLM將大語言模型(LLMs)擴展到3D空間理解任務中,特別在結構化室內建模領域實現(xiàn)了重要突破。這一技術路線打破了傳統(tǒng)任務專屬架構(task-specific architecture)的限制,創(chuàng)新性地采用可編輯的文本形式表達場景結構。這一創(chuàng)新設計具有雙重技術優(yōu)勢:一方面發(fā)揮了群核科技強大數據集能力,通過持續(xù)訓練不斷優(yōu)化空間識別精度;另一方面通過接入大語言模型,系統(tǒng)可直接接收并理解自然語言指令,使空間理解模型從簡單任務執(zhí)行工具轉變?yōu)槟軌蛘嬲斫庥脩粢鈭D的智能系統(tǒng),從而推進了LLMs在空間理解和推理方向的能力邊界。

圖說:SpatialLM1.1 模型的網絡結構

同時,SpatialLM構建了一個全新的包含3D結構化信息的合成點云數據集,打破了真實數據稀缺且難以標注的局限。該數據集包含超1.2萬場景、5.4萬個房間的結構化室內點云數據,其規(guī)模遠超ScanNet(僅包含1,513個場景)等現(xiàn)有數據集。所有數據均源自真實項目的專業(yè)設計模型,經嚴格篩選與解析后形成符合真實世界統(tǒng)計分布的虛擬環(huán)境,相較程序化生成的ProcTHOR等數據集具有更高真實性。據了解,三維可交互數據是群核科技在空間智能領域的重要優(yōu)勢,該模型訓練數據大多來自于群核空間智能平臺SpatialVerse。早在2018年,群核科技就面向全球發(fā)布了名為InteriorNet的深度學習數據集,其包含了共計約1億3千萬空間數據,這是當時全球最大的室內場景認知深度學習數據集。

圖說:SpatialLM1.1 數據集與目前開源數據的對比

據悉,自SpatialLM 空間理解模型開源以來,在全球開發(fā)者社區(qū)持續(xù)引發(fā)討論,開發(fā)者普遍認為,該模型標志著大語言模型從"理解文字"到"認知空間"的跨越,推動3D空間理解落地應用,為AI探索物理世界開辟了新路徑。其中,來自香港科技大學計算機科學與工程系譚平教授作為研究合作方指出:"SpatialLM創(chuàng)新性地將大語言模型應用于3D空間理解,在布局估計和物體檢測等任務上取得了顯著成果。這項突破對AR/VR和具身智能等領域的發(fā)展具有重要價值。"

相關文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產業(yè)

更多>>

人工智能技術

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews