精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

和 DeepMind 一起考慮如何在 AI 中重現(xiàn)人類(lèi)的價(jià)值觀

2018-11-26 10:51:07AI云資訊1019

現(xiàn)在提到 AI 的時(shí)候,大家已經(jīng)很少聯(lián)想到電影《終結(jié)者》中的天網(wǎng)那樣有自己獨(dú)特思維邏輯以至于得出了反人類(lèi)結(jié)論的「超人類(lèi)智能」了。這當(dāng)然是件好事,說(shuō)明我們都知道了現(xiàn)階段的 AI 并不具有那樣的邏輯思維能力,沿著現(xiàn)有方向繼續(xù)發(fā)展下去也不會(huì)有;也說(shuō)明我們已經(jīng)了解了身邊就有形形色色的運(yùn)用機(jī)器學(xué)習(xí)解決具體問(wèn)題的技術(shù)成果。

但我們同時(shí)也面對(duì)著一個(gè)新問(wèn)題,就是隨著人類(lèi)用模型做出越來(lái)越多的決策,模型所看重的因素真的和設(shè)計(jì)它的人類(lèi)所希望的一樣嗎?又或者,模型完全捕捉了設(shè)計(jì)者提供的數(shù)據(jù)中的模式,但數(shù)據(jù)本身卻含有設(shè)計(jì)者沒(méi)有意識(shí)到的偏見(jiàn)。這時(shí)候我們又要怎么辦?

DeepMind 安全團(tuán)隊(duì)的這篇文章就對(duì)相關(guān)問(wèn)題做出了一些討論、提出了一些見(jiàn)解。它概述了 DeepMind 近期一篇論文《Scalable agent alignment via reward modeling: a research direction》中提出的研究方向;這篇論文試圖為「智能體對(duì)齊」問(wèn)題提供一個(gè)研究方向。由此他們提出了一個(gè)基于獎(jiǎng)勵(lì)建模的遞歸式應(yīng)用的方法,讓機(jī)器在充分理解用戶意圖的前提下,再去解決真實(shí)世界中的復(fù)雜問(wèn)題。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。

近些年,強(qiáng)化學(xué)習(xí)在許多復(fù)雜的游戲環(huán)境中展現(xiàn)出令人驚嘆的實(shí)力,從Atari游戲、圍棋、象棋到Dota 2和星際爭(zhēng)霸II,AI智能體在許多復(fù)雜領(lǐng)域的表現(xiàn)正在迅速超越人類(lèi)。對(duì)研究人員來(lái)說(shuō),游戲是嘗試與檢驗(yàn)機(jī)器學(xué)習(xí)算法的理想平臺(tái),在游戲中,必須動(dòng)用綜合認(rèn)知能力才能完成任務(wù),跟解決現(xiàn)實(shí)世界問(wèn)題所需的能力并無(wú)兩樣。此外,機(jī)器學(xué)習(xí)研究人員還可以在云上并行運(yùn)行上千個(gè)模擬實(shí)驗(yàn),為學(xué)習(xí)系統(tǒng)提供源源不斷的訓(xùn)練數(shù)據(jù)。

最關(guān)鍵的一點(diǎn)是,游戲往往都有明確的目標(biāo)任務(wù),以及反映目標(biāo)完成進(jìn)度的打分系統(tǒng)。這個(gè)打分系統(tǒng)不但能夠?yàn)閺?qiáng)化學(xué)習(xí)智能體提供有效的獎(jiǎng)勵(lì)信號(hào),還能使我們迅速獲得反饋,從而判斷哪個(gè)算法和框架的表現(xiàn)最好。

讓智能體與人類(lèi)一致

不過(guò),AI的終極目標(biāo)是幫助人類(lèi)應(yīng)對(duì)現(xiàn)實(shí)生活中日益復(fù)雜的挑戰(zhàn),然而現(xiàn)實(shí)生活中沒(méi)有設(shè)置好的獎(jiǎng)勵(lì)機(jī)制,這對(duì)于人類(lèi)評(píng)價(jià)AI的工作表現(xiàn)來(lái)說(shuō)形成了挑戰(zhàn)。因此,需要盡快找到一個(gè)理想的反饋機(jī)制,讓AI能夠充分理解人類(lèi)的意圖并幫助人類(lèi)達(dá)成目標(biāo)。換句話說(shuō),我們希望用人類(lèi)的反饋對(duì)AI系統(tǒng)進(jìn)行訓(xùn)練,使其行為能夠與我們的意圖保持一致。為了達(dá)到這個(gè)目的,DeepMind的研究人員們定義了一個(gè)「智能體對(duì)齊」問(wèn)題如下:

如何創(chuàng)建行為與用戶意圖保持一致的智能體?

這個(gè)對(duì)齊問(wèn)題可以歸納在強(qiáng)化學(xué)習(xí)的框架中,差異在于智能體是通過(guò)交互協(xié)議與用戶進(jìn)行交流、了解他們的意圖,而非使用傳統(tǒng)的數(shù)值化的獎(jiǎng)勵(lì)信號(hào)。至于交互協(xié)議的形式可以有很多種,當(dāng)中包括演示(模仿學(xué)習(xí),如谷歌的模仿學(xué)習(xí)機(jī)器人)、偏好傾向(人類(lèi)直接評(píng)價(jià)結(jié)果,如 OpenAI和DeepMind的你做我評(píng) )、最優(yōu)動(dòng)作、傳達(dá)獎(jiǎng)勵(lì)函數(shù)等??偟膩?lái)說(shuō),智能體對(duì)齊問(wèn)題的解決方案之一,就是創(chuàng)建一個(gè)能讓機(jī)器根據(jù)用戶意圖運(yùn)作的策略。

DeepMind的論文《Scalable agent alignment via reward modeling: a research direction》中概述了一個(gè)正面解決「智能體對(duì)齊」問(wèn)題的研究方向?;谶^(guò)去在AI安全問(wèn)題分類(lèi)和AI安全問(wèn)題闡述方面所做的工作,DeepMind將描述這些領(lǐng)域至今所取得的進(jìn)展,從而啟發(fā)大家得到一個(gè)對(duì)于智能體對(duì)齊問(wèn)題的解決方案,形成一個(gè)善于高效溝通,會(huì)從用戶反饋中學(xué)習(xí),并且能準(zhǔn)確預(yù)測(cè)用戶偏好的系統(tǒng)。無(wú)論是應(yīng)對(duì)當(dāng)下相對(duì)簡(jiǎn)單的任務(wù),還是未來(lái)日趨復(fù)雜、抽象化的、甚至超越人類(lèi)理解能力的任務(wù),他們希望系統(tǒng)都能勝任有余。

通過(guò)獎(jiǎng)勵(lì)建模進(jìn)行對(duì)齊

DeepMind這項(xiàng)研究方向的核心在于獎(jiǎng)勵(lì)建模。他們首先會(huì)訓(xùn)練一個(gè)包含用戶反饋的獎(jiǎng)勵(lì)模型,通過(guò)這種方式捕捉用戶的真實(shí)意圖。與此同時(shí),通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)策略,使獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)效果最大化。換句話說(shuō),他們把學(xué)習(xí)做什么(獎(jiǎng)勵(lì)模型)與學(xué)習(xí)怎么做(策略)區(qū)分了開(kāi)來(lái)。

獎(jiǎng)勵(lì)建模示意圖:獎(jiǎng)勵(lì)模型基于用戶反饋進(jìn)行訓(xùn)練,以便更好地捕捉用戶意圖;同一時(shí)間,獎(jiǎng)勵(lì)模型為經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體提供獎(jiǎng)勵(lì)。

過(guò)去DeepMind做過(guò)一些類(lèi)似的工作,比如教智能體根據(jù)用戶喜好做后空翻,根據(jù)目標(biāo)示例將物件排成特定形狀,根據(jù)用戶的喜好和專(zhuān)業(yè)的演示玩 Atari 游戲(你做我評(píng) )。在未來(lái),DeepMind的研究人員們還希望可以研究出一套算法,讓系統(tǒng)可以根據(jù)用戶的反饋迅速調(diào)整自己去適應(yīng)用戶的行為模式。(比如通過(guò)自然語(yǔ)言)

擴(kuò)大獎(jiǎng)勵(lì)模型規(guī)模

從長(zhǎng)遠(yuǎn)來(lái)看,DeepMind的研究人員們希望可以將獎(jiǎng)勵(lì)模型的規(guī)模擴(kuò)大至一些目前對(duì)人類(lèi)評(píng)估能力來(lái)說(shuō)還比較復(fù)雜的領(lǐng)域。要做到這一點(diǎn),他們必須提升用戶評(píng)估結(jié)果的能力。因此,他們也將闡述如何遞歸地應(yīng)用獎(jiǎng)勵(lì)模型:通過(guò)獎(jiǎng)勵(lì)模型訓(xùn)練智能體,使其能在用戶的評(píng)估過(guò)程中提供幫助。一旦評(píng)估變得比行為簡(jiǎn)單,也就意味著系統(tǒng)可以從簡(jiǎn)單的任務(wù)過(guò)渡至更加普遍、復(fù)雜的任務(wù)。這也可以看作迭代擴(kuò)增(iterated amplification)的實(shí)例(詳情見(jiàn)「超級(jí) AI」的種子?復(fù)雜到人類(lèi)難以評(píng)價(jià)的問(wèn)題,可以教會(huì)一個(gè) AI )。

遞歸獎(jiǎng)勵(lì)模型的示意圖:經(jīng)過(guò)遞歸獎(jiǎng)勵(lì)模型訓(xùn)練的智能體(右邊的小圈圈)將幫助用戶評(píng)估由正在被訓(xùn)練的智能體(右邊打圈圈)產(chǎn)出的結(jié)果

舉例說(shuō)明,比如想要通過(guò)訓(xùn)練智能體來(lái)設(shè)計(jì)計(jì)算機(jī)芯片,為了評(píng)估所提議的芯片設(shè)計(jì)的可行性,我們會(huì)通過(guò)獎(jiǎng)勵(lì)模型訓(xùn)練一組智能體「助手」,幫助我們完成芯片模擬性能基準(zhǔn)測(cè)試、計(jì)算散熱性能、預(yù)估芯片的壽命、發(fā)現(xiàn)安全漏洞等任務(wù)。智能體「助手」輸出的成果幫助用戶評(píng)估了芯片設(shè)計(jì)的可行性,接著用戶可以據(jù)此來(lái)訓(xùn)練芯片設(shè)計(jì)智能體。雖然說(shuō)智能體「助手」需要解決的一系列任務(wù),對(duì)于今天的學(xué)習(xí)系統(tǒng)來(lái)說(shuō)難度還是有點(diǎn)高,然而總比直接讓它設(shè)計(jì)一個(gè)計(jì)算機(jī)芯片要容易:想設(shè)計(jì)出計(jì)算機(jī)芯片,你必須理解設(shè)計(jì)過(guò)程中的每一項(xiàng)評(píng)估任務(wù),反之卻不然。從這個(gè)角度來(lái)說(shuō),遞歸獎(jiǎng)勵(lì)模型可以讓我們對(duì)智能體提供「支持」,使其能在和用戶意圖保持一致的情況下,去解決越來(lái)越難的任務(wù)。

研究面臨的挑戰(zhàn)

如果想將獎(jiǎng)勵(lì)模型應(yīng)用到復(fù)雜的問(wèn)題上,有幾項(xiàng)挑戰(zhàn)依然等待著我們?nèi)タ朔?。下圖展示了5項(xiàng)在研究中可能面臨的挑戰(zhàn),對(duì)此感興趣的同學(xué)可以查閱DeepMind論文,文中詳細(xì)描述了這些挑戰(zhàn)及對(duì)應(yīng)的解決方案。

當(dāng)我們擴(kuò)大獎(jiǎng)勵(lì)建模時(shí)將會(huì)遇到的挑戰(zhàn)(左側(cè))以及最有希望的解決方案(右側(cè))

這提醒了我們關(guān)于智能體對(duì)齊問(wèn)題的最后一個(gè)關(guān)鍵要素:一旦要在現(xiàn)實(shí)世界中投入使用智能體,首先我們需要向用戶證明這些智能體已經(jīng)充分對(duì)齊。為此,DeepMind在文中提出了5項(xiàng)有助于提高用戶對(duì)于智能體信任度的研究途徑,它們是:設(shè)計(jì)選擇、測(cè)試、可解釋性、形式驗(yàn)證和理論保證。他們還有一個(gè)充滿野心的想法,那就是為產(chǎn)品制作安全證書(shū),證書(shū)主要用于證明開(kāi)發(fā)技術(shù)的可靠性,以及增強(qiáng)用戶使用訓(xùn)練智能體進(jìn)行工作的信心。

未來(lái)的研究方向

雖然DeepMind的研究人員們深信遞歸獎(jiǎng)勵(lì)模型會(huì)是智能體對(duì)齊訓(xùn)練非常有前景的一個(gè)研究方向,然而他們目前無(wú)法預(yù)估這個(gè)方向在未來(lái)會(huì)怎么發(fā)展(需要大家進(jìn)行更多的研究?。?。不過(guò)值得慶祝的是,專(zhuān)注智能體對(duì)齊問(wèn)題的其它幾種研究方向也同時(shí)有別的研究人員正在做出成果:

模仿學(xué)習(xí)短視強(qiáng)化學(xué)習(xí)(Myopic reinforcement learning)(http://www.cs.utexas.edu/~bradknox/TAMER.html)逆強(qiáng)化學(xué)習(xí)(Inverse reinforcement learning)(http://ftp.cs.berkeley.edu/~russell/papers/colt98-uncertainty.pdf)合作逆強(qiáng)化學(xué)習(xí)(https://arxiv.org/abs/1606.03137)迭代擴(kuò)增(復(fù)雜到人類(lèi)難以評(píng)價(jià)的問(wèn)題,可以教會(huì)一個(gè) AI )通過(guò)爭(zhēng)論學(xué)習(xí)(人和人吵架生氣,但 AI 和 AI 吵架反倒可以帶來(lái)安全 )智能體基礎(chǔ)組件設(shè)計(jì)(Agent foundations)(https://intelligence.org/files/TechnicalAgenda.pdf)DeepMind也在文中探討了這幾種研究方向的異同之處。

如同計(jì)算機(jī)視覺(jué)系統(tǒng)對(duì)于對(duì)抗性輸入的魯棒性研究對(duì)當(dāng)今的機(jī)器學(xué)習(xí)實(shí)際應(yīng)用至關(guān)重要,智能體對(duì)齊研究同樣有望成為機(jī)器學(xué)習(xí)系統(tǒng)在復(fù)雜現(xiàn)實(shí)世界進(jìn)行部署的關(guān)鍵鑰匙??傊祟?lèi)有理由保持樂(lè)觀:雖然學(xué)術(shù)研究上很可能會(huì)在試圖擴(kuò)大獎(jiǎng)勵(lì)模型時(shí)面臨挑戰(zhàn),然而這些挑戰(zhàn)都是一些有望解決的具體技術(shù)性問(wèn)題。從這個(gè)意義上說(shuō),這個(gè)研究方向已經(jīng)準(zhǔn)備就緒,可以對(duì)深度強(qiáng)化學(xué)習(xí)智能體進(jìn)行實(shí)證研究。

協(xié)助課題研究取得進(jìn)展是DeepMind日常工作中很重要的一個(gè)主題。如果作為研究者、工程師或者有天賦的通才,有興趣參與DeepMind的研究中來(lái),DeepMind也歡迎他們申請(qǐng)加入自己的研究團(tuán)隊(duì)。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛(ài)云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews