久久久国产不卡一区二区,亚洲一区二区三区av在线观看

機器人技術(shù)的基本問題既涉及離散變量（比如控制模式或齒輪切換的選擇），又涉及連續(xù)變量（比如速度設(shè)定點和控制增益）。通常來說，由于算法或控制策略并不總是適合的，因此這些問題很難解決。這就是為什么谷歌母公司Alphabet的DeepMind的研究人員最近提出了一種技術(shù)：連續(xù)-離散混合學習，即可以同時優(yōu)化離散和連續(xù)動作，以其本來的形式處理混合問題。

來源：DeepMind

在預印本服務(wù)器Arxiv.org上發(fā)表的一篇論文詳細介紹了他們的工作，這篇論文也在去年10月日本大阪的第三屆機器人學習會議上被人接受。作者寫道：“許多先進的方法都進行了優(yōu)化，它們能很好處理離散的或是連續(xù)的動作空間，但是卻很少有方法能同時處理。能夠使用同一算法強大地處理離散和連續(xù)動作空間，使我們能夠針對任何給定問題都能選擇最自然的解決方案策略，而不是讓算法上的便利性來決定做出哪種選擇。”

團隊研發(fā)的無模型算法，是指利用強化學習或者獎勵實現(xiàn)目標的自主代理人的培訓技術(shù)，通過連續(xù)和離散動作空間來解決控制問題，并通過受控和自主切換來解決混合最優(yōu)控制問題。此外，這種算法通過使用“元動作”或其他類似方案來擴大動作空間（分別定義了代理人可能感知和采取的狀態(tài)和動作的范圍），從而為解決現(xiàn)有的機器人問題提供了新穎的解決方案，并使策略可以解決類似人工智能訓練期間的機械磨損等挑戰(zhàn) 。

來源：DeepMind

DeepMind機器人技術(shù)

研究人員在一系列模擬和現(xiàn)實基準測試中驗證了他們的方法，包括Rethink Robotics公司的Sawyer機器人手臂。據(jù)稱，基于給定的到達、抓取和拿起魔方的任務(wù)，其中獎勵是三個子任務(wù)的總和，因此他們的算法要優(yōu)于無法解決任務(wù)的現(xiàn)有方法。

那是因為到達魔方需要代理人打開手臂的抓具，而抓取方塊需要關(guān)閉抓具。作者寫道：“一開始，基線將大部分概率集中在較小的動作值上，因此很難移動抓具的手指來看到任何獎勵，從而解釋了學習曲線上的平穩(wěn)期。另一方面，這個算法能始終以全速操作抓具，因此改進了探查性，使機器人可以完全完成任務(wù)?！?

在一個單獨的實驗中，團隊將其算法設(shè)置為參數(shù)化動作空間馬爾可夫決策過程（PAMDP）或一個分層問題，其中，代理人首先選擇離散動作，然后為該動作選擇一組連續(xù)的參數(shù)集。在這種情況下，代理人的任務(wù)是操縱機器人手臂，以便將釘子插入孔中，然后根據(jù)孔的位置和運動學來計算獎勵。

研究人員表示，他們的方法比精細方法和粗略方法獲得了更大的回報，并且這種算法將來可以作為基礎(chǔ)應(yīng)用到更多的混合強化學習中。論文中寫道：“對于專業(yè)設(shè)計師而言，事先選擇合適的模式可能很困難。而我們的方法是很有用的，因為它只需要一個實驗，而別的方法都需要通過消融來進行驗證?！?

精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

DeepMind研究人員研發(fā)出了一種解決機器人控制問題的混合方案

相關(guān)文章

人工智能企業(yè)

人工智能硬件

人工智能產(chǎn)業(yè)

人工智能技術(shù)