精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

DeepMind研究人員研發(fā)出了一種解決機器人控制問題的混合方案

2020-01-10 13:21:04AI云資訊813

機器人技術(shù)的基本問題既涉及離散變量(比如控制模式或齒輪切換的選擇),又涉及連續(xù)變量(比如速度設(shè)定點和控制增益)。通常來說,由于算法或控制策略并不總是適合的,因此這些問題很難解決。這就是為什么谷歌母公司Alphabet的DeepMind的研究人員最近提出了一種技術(shù):連續(xù)-離散混合學習,即可以同時優(yōu)化離散和連續(xù)動作,以其本來的形式處理混合問題。

來源:DeepMind
在預印本服務(wù)器Arxiv.org上發(fā)表的一篇論文詳細介紹了他們的工作,這篇論文也在去年10月日本大阪的第三屆機器人學習會議上被人接受。作者寫道:“許多先進的方法都進行了優(yōu)化,它們能很好處理離散的或是連續(xù)的動作空間,但是卻很少有方法能同時處理。能夠使用同一算法強大地處理離散和連續(xù)動作空間,使我們能夠針對任何給定問題都能選擇最自然的解決方案策略,而不是讓算法上的便利性來決定做出哪種選擇。”
團隊研發(fā)的無模型算法,是指利用強化學習或者獎勵實現(xiàn)目標的自主代理人的培訓技術(shù),通過連續(xù)和離散動作空間來解決控制問題,并通過受控和自主切換來解決混合最優(yōu)控制問題。此外,這種算法通過使用“元動作”或其他類似方案來擴大動作空間(分別定義了代理人可能感知和采取的狀態(tài)和動作的范圍),從而為解決現(xiàn)有的機器人問題提供了新穎的解決方案,并使策略可以解決類似人工智能訓練期間的機械磨損等挑戰(zhàn) 。

來源:DeepMind
DeepMind機器人技術(shù)
研究人員在一系列模擬和現(xiàn)實基準測試中驗證了他們的方法,包括Rethink Robotics公司的Sawyer機器人手臂。據(jù)稱,基于給定的到達、抓取和拿起魔方的任務(wù),其中獎勵是三個子任務(wù)的總和,因此他們的算法要優(yōu)于無法解決任務(wù)的現(xiàn)有方法。
那是因為到達魔方需要代理人打開手臂的抓具,而抓取方塊需要關(guān)閉抓具。作者寫道:“一開始,基線將大部分概率集中在較小的動作值上,因此很難移動抓具的手指來看到任何獎勵,從而解釋了學習曲線上的平穩(wěn)期。另一方面,這個算法能始終以全速操作抓具,因此改進了探查性,使機器人可以完全完成任務(wù)?!?
在一個單獨的實驗中,團隊將其算法設(shè)置為參數(shù)化動作空間馬爾可夫決策過程(PAMDP)或一個分層問題,其中,代理人首先選擇離散動作,然后為該動作選擇一組連續(xù)的參數(shù)集。在這種情況下,代理人的任務(wù)是操縱機器人手臂,以便將釘子插入孔中,然后根據(jù)孔的位置和運動學來計算獎勵。
研究人員表示,他們的方法比精細方法和粗略方法獲得了更大的回報,并且這種算法將來可以作為基礎(chǔ)應(yīng)用到更多的混合強化學習中。論文中寫道:“對于專業(yè)設(shè)計師而言,事先選擇合適的模式可能很困難。而我們的方法是很有用的,因為它只需要一個實驗,而別的方法都需要通過消融來進行驗證?!?

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews