DeepMind研究人員研發(fā)出了一種解決機器人控制問題的混合方案
2020-01-10 13:21:04AI云資訊813
機器人技術(shù)的基本問題既涉及離散變量(比如控制模式或齒輪切換的選擇),又涉及連續(xù)變量(比如速度設(shè)定點和控制增益)。通常來說,由于算法或控制策略并不總是適合的,因此這些問題很難解決。這就是為什么谷歌母公司Alphabet的DeepMind的研究人員最近提出了一種技術(shù):連續(xù)-離散混合學習,即可以同時優(yōu)化離散和連續(xù)動作,以其本來的形式處理混合問題。

在預印本服務(wù)器Arxiv.org上發(fā)表的一篇論文詳細介紹了他們的工作,這篇論文也在去年10月日本大阪的第三屆機器人學習會議上被人接受。作者寫道:“許多先進的方法都進行了優(yōu)化,它們能很好處理離散的或是連續(xù)的動作空間,但是卻很少有方法能同時處理。能夠使用同一算法強大地處理離散和連續(xù)動作空間,使我們能夠針對任何給定問題都能選擇最自然的解決方案策略,而不是讓算法上的便利性來決定做出哪種選擇。”
團隊研發(fā)的無模型算法,是指利用強化學習或者獎勵實現(xiàn)目標的自主代理人的培訓技術(shù),通過連續(xù)和離散動作空間來解決控制問題,并通過受控和自主切換來解決混合最優(yōu)控制問題。此外,這種算法通過使用“元動作”或其他類似方案來擴大動作空間(分別定義了代理人可能感知和采取的狀態(tài)和動作的范圍),從而為解決現(xiàn)有的機器人問題提供了新穎的解決方案,并使策略可以解決類似人工智能訓練期間的機械磨損等挑戰(zhàn)
。

來源:DeepMind
DeepMind機器人技術(shù)
研究人員在一系列模擬和現(xiàn)實基準測試中驗證了他們的方法,包括Rethink Robotics公司的Sawyer機器人手臂。據(jù)稱,基于給定的到達、抓取和拿起魔方的任務(wù),其中獎勵是三個子任務(wù)的總和,因此他們的算法要優(yōu)于無法解決任務(wù)的現(xiàn)有方法。
那是因為到達魔方需要代理人打開手臂的抓具,而抓取方塊需要關(guān)閉抓具。作者寫道:“一開始,基線將大部分概率集中在較小的動作值上,因此很難移動抓具的手指來看到任何獎勵,從而解釋了學習曲線上的平穩(wěn)期。另一方面,這個算法能始終以全速操作抓具,因此改進了探查性,使機器人可以完全完成任務(wù)?!?
在一個單獨的實驗中,團隊將其算法設(shè)置為參數(shù)化動作空間馬爾可夫決策過程(PAMDP)或一個分層問題,其中,代理人首先選擇離散動作,然后為該動作選擇一組連續(xù)的參數(shù)集。在這種情況下,代理人的任務(wù)是操縱機器人手臂,以便將釘子插入孔中,然后根據(jù)孔的位置和運動學來計算獎勵。
研究人員表示,他們的方法比精細方法和粗略方法獲得了更大的回報,并且這種算法將來可以作為基礎(chǔ)應(yīng)用到更多的混合強化學習中。論文中寫道:“對于專業(yè)設(shè)計師而言,事先選擇合適的模式可能很困難。而我們的方法是很有用的,因為它只需要一個實驗,而別的方法都需要通過消融來進行驗證?!?
相關(guān)文章
- 云鯨AI活水履帶洗地機器人獲奧維云網(wǎng)認證行業(yè)規(guī)模第一,科學清潔實力可見
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 元蘿卜以“家電價格的機器人”,開啟智能養(yǎng)老普惠時代
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 全球視角|海桑健康A(chǔ)I智能體檢機器人牽手“東方柔谷”
- 極智嘉南非首個機器人智能倉項目斬獲“非洲供應(yīng)鏈卓越獎”
- 2026第十五屆北京國際機器人展覽會
- 榮耀攜手IROS 2025機器人學習挑戰(zhàn)賽,助力具身智能發(fā)展
- 優(yōu)必選天工行者京東首發(fā) 三版人形機器人29.9萬元起售
- 深之藍參與編制的國家標準——《淡水水下搜救機器人通用技術(shù)條件》獲批發(fā)布
- 人形機器人產(chǎn)業(yè)奇點將至,科技龍頭憑AI實力硬控“輕量化時代”
- 割草機器人邁入3.0時代|庫犸首創(chuàng)三重融合定位系統(tǒng),閃耀IFA 2025
- 仙工智能與星塵智能達成千臺級合作,推進人形機器人在工業(yè)及物流場景規(guī)?;瘧?yīng)用
- 激光雷達跑出巨額增量,水下機器人有望成為下一個爆發(fā)點
- 馬斯克稱擎天柱人形機器人將重塑勞動力的可用性與能力范疇,或?qū)?026年上市
- 蘇超賽場現(xiàn)萬人合唱震撼助威 京東智能機器人熱舞引爆科技熱潮
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案