深度強化學習為人工智能系統(tǒng)注入“靈魂” 可讓四足機器人自己學走路
2019-01-02 10:31:13AI云資訊1257
人工智能(AI)系統(tǒng)使得機器人能夠以人類靈巧的方式掌握和操縱物體,現(xiàn)在,研究人員表示他們已經(jīng)開發(fā)出一種算法,通過這種算法,機器可以自己學會走路。在Arxiv.org上發(fā)表的一份預印本論文中(“通過深度強化學習來學習走路”),加州大學伯克利分校的科學家和谷歌人工智能(AI)研究部門之一Google Brain描述了一種人工智能系統(tǒng),教“一個四足機器人來穿越熟悉和不熟悉的地形。
“深度強化學習可以用于自動獲取一系列機器人任務的控制器,從而實現(xiàn)將感知輸入映射到低級別動作的策略的端到端學習。”該論文的作者解釋道。 “如果我們可以直接在現(xiàn)實世界中從頭開始學習運動步態(tài),原則上我們就能獲得最適合每個機器人、甚至適合單個地形的控制器,潛在地實現(xiàn)更好的敏捷性、能源效率和穩(wěn)健性?!?
設計挑戰(zhàn)是雙重的。強化學習是一種使用獎勵或懲罰來驅動代替人實現(xiàn)目標的人工智能培訓技術,它需要大量數(shù)據(jù),在某些情況下需要數(shù)萬個樣本才能獲得良好的結果。并且微調機器人系統(tǒng)的超參數(shù) —— 即確定其結構的參數(shù) —— 通常需要多次訓練,這可能會隨著時間的推移對腿式機器人造成傷害。
“深度強化學習已被廣??泛用于模擬中的學習運動策略,甚至將它們轉移到現(xiàn)實世界的機器人中,但由于模擬中的差異,這不可避免地導致性能損失,并且需要大量的手動建模。”該論文的作者指出,“在現(xiàn)實世界中使用這些算法已經(jīng)證明具有挑戰(zhàn)性?!?
為了找到一種方法,用研究人員的話說,“(使)一個系統(tǒng)在沒有模擬訓練的情況下學習運動技能成為可能,他們選擇了一種稱為“最大熵RL”的強化學習框架(RL)。最大熵RL優(yōu)化學習策略以最大化預期回報和預期熵,或者正在處理的數(shù)據(jù)中的隨機性度量。在RL中,AI代理通過從策略中采樣動作并接收獎勵,不斷尋找最佳的行動路徑,也就是說,狀態(tài)和行動的軌跡。最大熵RL激勵政策更廣泛地探索;一個參數(shù) —— 比如說,溫度 —— 確定熵對獎勵的相對重要性,從而確定其隨機性。
但這并不全是積極和有效的,至少不是一開始。因為熵和獎勵之間的權衡直接受到獎勵函數(shù)的規(guī)模的影響,而獎勵函數(shù)的規(guī)模又影響學習速率,所以通常必須針對每個環(huán)境調整縮放因子。研究人員的解決方案是自動化溫度和獎勵規(guī)模調整,部分是在兩個階段之間交替進行:數(shù)據(jù)收集階段和優(yōu)化階段。
結果不言自明。在OpenAI的健身房(一個用于訓練和測試AI代理的開源模擬環(huán)境)進行的實驗中,作者的模型在四個連續(xù)運動任務(HalfCheetah、Ant、Walker和Minitaur)中實現(xiàn)了“幾乎相同”或比基線更好的性能。
在第二次真實世界的測試中,研究人員將他們的模型應用于四足Minitaur,這是一種帶八個執(zhí)行器的機器人,一個測量馬達角度的馬達編碼器,以及一個測量方向和角速度的慣性測量單元(IMU)。
他們開發(fā)了一個管道,包括(1)計算機工作站,更新神經(jīng)網(wǎng)絡,從Minitaur下載數(shù)據(jù),并上傳最新策略;(2)在機器人上安裝Nvidia Jetson TX2執(zhí)行上述策略,收集數(shù)據(jù),并通過以太網(wǎng)將數(shù)據(jù)上傳到工作站。經(jīng)過兩個小時160,000步的訓練后,通過獎勵前進速度和懲罰“大角加速度”和俯仰角的算法,他們成功地訓練Minitaur在平坦的地形上行走,越過木塊等障礙物行走,以及爬上斜坡和臺階,而這些在訓練時間內均未出現(xiàn)。
“據(jù)我們所知,這個實驗是深度強化學習算法的第一例,這種算法可以在沒有任何模擬或訓練的情況下,直接在現(xiàn)實世界中學習欠驅動的四足運動?!毖芯咳藛T寫道。
相關文章
- 深度契合人工智能+與智能網(wǎng)聯(lián)汽車主題,懂車帝智博會系列活動收官
- AI能力官方認可!合思入選超算互聯(lián)網(wǎng)《人工智能生態(tài)產(chǎn)業(yè)圖譜》
- 人工智能引領體育未來:第三屆全國體育人工智能大會將于10月底在京啟幕
- “人工智能+”駛入快車道,和鯨聯(lián)合聯(lián)想、沐曦首發(fā)科研智能一體機
- 艾氪智能段豐元出席2025深圳(國際)通用人工智能大會,產(chǎn)業(yè)級 Agentic AI 智能體集群亮相
- 容聯(lián)云入選沙利文《2025人工智能全景圖》,彰顯AI Agent領軍實力
- 深入實施“人工智能+”,伊頓助力皓揚數(shù)據(jù)打造 AI 算力中心標桿
- 新達內與百度智能云達成戰(zhàn)略合作 聯(lián)合培養(yǎng)人工智能大模型人才
- 響應“人工智能+”行動,BodyPark以“真人+AI”破解健身行業(yè)痛點,引領數(shù)字化升級
- CCF中國存儲大會 | 浪潮存儲劉希猛:融合存儲加快“人工智能+”行動落地
- 回應時代,定義未來 | 漫柏集團與阿普人工智能共建“產(chǎn)教融合人才大社區(qū)”樣板
- 微軟人工智能推出首批自研模型MAI-Voice-1語音模型與MAI-1預覽版
- 物聯(lián)網(wǎng)與人工智能的中國力量,年度AGIC+IOTE盛會深圳重磅開幕!
- 迎“人工智能+”政策東風!2025中國智能產(chǎn)業(yè)大會&吳文俊人工智能創(chuàng)新大會即將落地常州
- 超千家AI企業(yè)“智匯”鵬城 2025 AGIC深圳(國際)通用人工智能大會暨產(chǎn)業(yè)博覽會啟幕
- 深入實施“人工智能+”行動的號角已經(jīng)吹響,曠視以“升維”解碼AI未來圖景
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球對話
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案