中文字幕精品av一区二区五区,性色香蕉av久久久天天网,亚洲另类激情综合偷自拍图片

現(xiàn)在提到 AI 的時(shí)候，大家已經(jīng)很少聯(lián)想到電影《終結(jié)者》中的天網(wǎng)那樣有自己獨(dú)特思維邏輯以至于得出了反人類(lèi)結(jié)論的「超人類(lèi)智能」了。這當(dāng)然是件好事，說(shuō)明我們都知道了現(xiàn)階段的 AI 并不具有那樣的邏輯思維能力，沿著現(xiàn)有方向繼續(xù)發(fā)展下去也不會(huì)有；也說(shuō)明我們已經(jīng)了解了身邊就有形形色色的運(yùn)用機(jī)器學(xué)習(xí)解決具體問(wèn)題的技術(shù)成果。

但我們同時(shí)也面對(duì)著一個(gè)新問(wèn)題，就是隨著人類(lèi)用模型做出越來(lái)越多的決策，模型所看重的因素真的和設(shè)計(jì)它的人類(lèi)所希望的一樣嗎？又或者，模型完全捕捉了設(shè)計(jì)者提供的數(shù)據(jù)中的模式，但數(shù)據(jù)本身卻含有設(shè)計(jì)者沒(méi)有意識(shí)到的偏見(jiàn)。這時(shí)候我們又要怎么辦？

DeepMind 安全團(tuán)隊(duì)的這篇文章就對(duì)相關(guān)問(wèn)題做出了一些討論、提出了一些見(jiàn)解。它概述了 DeepMind 近期一篇論文《Scalable agent alignment via reward modeling: a research direction》中提出的研究方向；這篇論文試圖為「智能體對(duì)齊」問(wèn)題提供一個(gè)研究方向。由此他們提出了一個(gè)基于獎(jiǎng)勵(lì)建模的遞歸式應(yīng)用的方法，讓機(jī)器在充分理解用戶意圖的前提下，再去解決真實(shí)世界中的復(fù)雜問(wèn)題。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。

近些年，強(qiáng)化學(xué)習(xí)在許多復(fù)雜的游戲環(huán)境中展現(xiàn)出令人驚嘆的實(shí)力，從Atari游戲、圍棋、象棋到Dota 2和星際爭(zhēng)霸II，AI智能體在許多復(fù)雜領(lǐng)域的表現(xiàn)正在迅速超越人類(lèi)。對(duì)研究人員來(lái)說(shuō)，游戲是嘗試與檢驗(yàn)機(jī)器學(xué)習(xí)算法的理想平臺(tái)，在游戲中，必須動(dòng)用綜合認(rèn)知能力才能完成任務(wù)，跟解決現(xiàn)實(shí)世界問(wèn)題所需的能力并無(wú)兩樣。此外，機(jī)器學(xué)習(xí)研究人員還可以在云上并行運(yùn)行上千個(gè)模擬實(shí)驗(yàn)，為學(xué)習(xí)系統(tǒng)提供源源不斷的訓(xùn)練數(shù)據(jù)。

最關(guān)鍵的一點(diǎn)是，游戲往往都有明確的目標(biāo)任務(wù)，以及反映目標(biāo)完成進(jìn)度的打分系統(tǒng)。這個(gè)打分系統(tǒng)不但能夠?yàn)閺?qiáng)化學(xué)習(xí)智能體提供有效的獎(jiǎng)勵(lì)信號(hào)，還能使我們迅速獲得反饋，從而判斷哪個(gè)算法和框架的表現(xiàn)最好。

讓智能體與人類(lèi)一致

不過(guò)，AI的終極目標(biāo)是幫助人類(lèi)應(yīng)對(duì)現(xiàn)實(shí)生活中日益復(fù)雜的挑戰(zhàn)，然而現(xiàn)實(shí)生活中沒(méi)有設(shè)置好的獎(jiǎng)勵(lì)機(jī)制，這對(duì)于人類(lèi)評(píng)價(jià)AI的工作表現(xiàn)來(lái)說(shuō)形成了挑戰(zhàn)。因此，需要盡快找到一個(gè)理想的反饋機(jī)制，讓AI能夠充分理解人類(lèi)的意圖并幫助人類(lèi)達(dá)成目標(biāo)。換句話說(shuō)，我們希望用人類(lèi)的反饋對(duì)AI系統(tǒng)進(jìn)行訓(xùn)練，使其行為能夠與我們的意圖保持一致。為了達(dá)到這個(gè)目的，DeepMind的研究人員們定義了一個(gè)「智能體對(duì)齊」問(wèn)題如下：

如何創(chuàng)建行為與用戶意圖保持一致的智能體？

這個(gè)對(duì)齊問(wèn)題可以歸納在強(qiáng)化學(xué)習(xí)的框架中，差異在于智能體是通過(guò)交互協(xié)議與用戶進(jìn)行交流、了解他們的意圖，而非使用傳統(tǒng)的數(shù)值化的獎(jiǎng)勵(lì)信號(hào)。至于交互協(xié)議的形式可以有很多種，當(dāng)中包括演示（模仿學(xué)習(xí)，如谷歌的模仿學(xué)習(xí)機(jī)器人）、偏好傾向（人類(lèi)直接評(píng)價(jià)結(jié)果，如 OpenAI和DeepMind的你做我評(píng) ）、最優(yōu)動(dòng)作、傳達(dá)獎(jiǎng)勵(lì)函數(shù)等?？偟膩?lái)說(shuō)，智能體對(duì)齊問(wèn)題的解決方案之一，就是創(chuàng)建一個(gè)能讓機(jī)器根據(jù)用戶意圖運(yùn)作的策略。

DeepMind的論文《Scalable agent alignment via reward modeling: a research direction》中概述了一個(gè)正面解決「智能體對(duì)齊」問(wèn)題的研究方向?；谶^(guò)去在AI安全問(wèn)題分類(lèi)和AI安全問(wèn)題闡述方面所做的工作，DeepMind將描述這些領(lǐng)域至今所取得的進(jìn)展，從而啟發(fā)大家得到一個(gè)對(duì)于智能體對(duì)齊問(wèn)題的解決方案，形成一個(gè)善于高效溝通，會(huì)從用戶反饋中學(xué)習(xí)，并且能準(zhǔn)確預(yù)測(cè)用戶偏好的系統(tǒng)。無(wú)論是應(yīng)對(duì)當(dāng)下相對(duì)簡(jiǎn)單的任務(wù)，還是未來(lái)日趨復(fù)雜、抽象化的、甚至超越人類(lèi)理解能力的任務(wù)，他們希望系統(tǒng)都能勝任有余。

通過(guò)獎(jiǎng)勵(lì)建模進(jìn)行對(duì)齊

DeepMind這項(xiàng)研究方向的核心在于獎(jiǎng)勵(lì)建模。他們首先會(huì)訓(xùn)練一個(gè)包含用戶反饋的獎(jiǎng)勵(lì)模型，通過(guò)這種方式捕捉用戶的真實(shí)意圖。與此同時(shí)，通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)策略，使獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)效果最大化。換句話說(shuō)，他們把學(xué)習(xí)做什么（獎(jiǎng)勵(lì)模型）與學(xué)習(xí)怎么做（策略）區(qū)分了開(kāi)來(lái)。

獎(jiǎng)勵(lì)建模示意圖：獎(jiǎng)勵(lì)模型基于用戶反饋進(jìn)行訓(xùn)練，以便更好地捕捉用戶意圖；同一時(shí)間，獎(jiǎng)勵(lì)模型為經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的智能體提供獎(jiǎng)勵(lì)。

過(guò)去DeepMind做過(guò)一些類(lèi)似的工作，比如教智能體根據(jù)用戶喜好做后空翻，根據(jù)目標(biāo)示例將物件排成特定形狀，根據(jù)用戶的喜好和專(zhuān)業(yè)的演示玩 Atari 游戲（你做我評(píng) ）。在未來(lái)，DeepMind的研究人員們還希望可以研究出一套算法，讓系統(tǒng)可以根據(jù)用戶的反饋迅速調(diào)整自己去適應(yīng)用戶的行為模式。（比如通過(guò)自然語(yǔ)言）

擴(kuò)大獎(jiǎng)勵(lì)模型規(guī)模

從長(zhǎng)遠(yuǎn)來(lái)看，DeepMind的研究人員們希望可以將獎(jiǎng)勵(lì)模型的規(guī)模擴(kuò)大至一些目前對(duì)人類(lèi)評(píng)估能力來(lái)說(shuō)還比較復(fù)雜的領(lǐng)域。要做到這一點(diǎn)，他們必須提升用戶評(píng)估結(jié)果的能力。因此，他們也將闡述如何遞歸地應(yīng)用獎(jiǎng)勵(lì)模型：通過(guò)獎(jiǎng)勵(lì)模型訓(xùn)練智能體，使其能在用戶的評(píng)估過(guò)程中提供幫助。一旦評(píng)估變得比行為簡(jiǎn)單，也就意味著系統(tǒng)可以從簡(jiǎn)單的任務(wù)過(guò)渡至更加普遍、復(fù)雜的任務(wù)。這也可以看作迭代擴(kuò)增（iterated amplification）的實(shí)例（詳情見(jiàn)「超級(jí) AI」的種子？復(fù)雜到人類(lèi)難以評(píng)價(jià)的問(wèn)題，可以教會(huì)一個(gè) AI ）。

遞歸獎(jiǎng)勵(lì)模型的示意圖：經(jīng)過(guò)遞歸獎(jiǎng)勵(lì)模型訓(xùn)練的智能體（右邊的小圈圈）將幫助用戶評(píng)估由正在被訓(xùn)練的智能體（右邊打圈圈）產(chǎn)出的結(jié)果

舉例說(shuō)明，比如想要通過(guò)訓(xùn)練智能體來(lái)設(shè)計(jì)計(jì)算機(jī)芯片，為了評(píng)估所提議的芯片設(shè)計(jì)的可行性，我們會(huì)通過(guò)獎(jiǎng)勵(lì)模型訓(xùn)練一組智能體「助手」，幫助我們完成芯片模擬性能基準(zhǔn)測(cè)試、計(jì)算散熱性能、預(yù)估芯片的壽命、發(fā)現(xiàn)安全漏洞等任務(wù)。智能體「助手」輸出的成果幫助用戶評(píng)估了芯片設(shè)計(jì)的可行性，接著用戶可以據(jù)此來(lái)訓(xùn)練芯片設(shè)計(jì)智能體。雖然說(shuō)智能體「助手」需要解決的一系列任務(wù)，對(duì)于今天的學(xué)習(xí)系統(tǒng)來(lái)說(shuō)難度還是有點(diǎn)高，然而總比直接讓它設(shè)計(jì)一個(gè)計(jì)算機(jī)芯片要容易：想設(shè)計(jì)出計(jì)算機(jī)芯片，你必須理解設(shè)計(jì)過(guò)程中的每一項(xiàng)評(píng)估任務(wù)，反之卻不然。從這個(gè)角度來(lái)說(shuō)，遞歸獎(jiǎng)勵(lì)模型可以讓我們對(duì)智能體提供「支持」，使其能在和用戶意圖保持一致的情況下，去解決越來(lái)越難的任務(wù)。

研究面臨的挑戰(zhàn)

如果想將獎(jiǎng)勵(lì)模型應(yīng)用到復(fù)雜的問(wèn)題上，有幾項(xiàng)挑戰(zhàn)依然等待著我們?nèi)タ朔?。下圖展示了5項(xiàng)在研究中可能面臨的挑戰(zhàn)，對(duì)此感興趣的同學(xué)可以查閱DeepMind論文，文中詳細(xì)描述了這些挑戰(zhàn)及對(duì)應(yīng)的解決方案。

當(dāng)我們擴(kuò)大獎(jiǎng)勵(lì)建模時(shí)將會(huì)遇到的挑戰(zhàn)（左側(cè)）以及最有希望的解決方案（右側(cè)）

這提醒了我們關(guān)于智能體對(duì)齊問(wèn)題的最后一個(gè)關(guān)鍵要素：一旦要在現(xiàn)實(shí)世界中投入使用智能體，首先我們需要向用戶證明這些智能體已經(jīng)充分對(duì)齊。為此，DeepMind在文中提出了5項(xiàng)有助于提高用戶對(duì)于智能體信任度的研究途徑，它們是：設(shè)計(jì)選擇、測(cè)試、可解釋性、形式驗(yàn)證和理論保證。他們還有一個(gè)充滿野心的想法，那就是為產(chǎn)品制作安全證書(shū)，證書(shū)主要用于證明開(kāi)發(fā)技術(shù)的可靠性，以及增強(qiáng)用戶使用訓(xùn)練智能體進(jìn)行工作的信心。

未來(lái)的研究方向

雖然DeepMind的研究人員們深信遞歸獎(jiǎng)勵(lì)模型會(huì)是智能體對(duì)齊訓(xùn)練非常有前景的一個(gè)研究方向，然而他們目前無(wú)法預(yù)估這個(gè)方向在未來(lái)會(huì)怎么發(fā)展（需要大家進(jìn)行更多的研究?。?。不過(guò)值得慶祝的是，專(zhuān)注智能體對(duì)齊問(wèn)題的其它幾種研究方向也同時(shí)有別的研究人員正在做出成果：

模仿學(xué)習(xí)短視強(qiáng)化學(xué)習(xí)（Myopic reinforcement learning）（http://www.cs.utexas.edu/~bradknox/TAMER.html）逆強(qiáng)化學(xué)習(xí)（Inverse reinforcement learning）（http://ftp.cs.berkeley.edu/~russell/papers/colt98-uncertainty.pdf）合作逆強(qiáng)化學(xué)習(xí)（https://arxiv.org/abs/1606.03137）迭代擴(kuò)增（復(fù)雜到人類(lèi)難以評(píng)價(jià)的問(wèn)題，可以教會(huì)一個(gè) AI ）通過(guò)爭(zhēng)論學(xué)習(xí)（人和人吵架生氣，但 AI 和 AI 吵架反倒可以帶來(lái)安全）智能體基礎(chǔ)組件設(shè)計(jì)（Agent foundations）（https://intelligence.org/files/TechnicalAgenda.pdf）DeepMind也在文中探討了這幾種研究方向的異同之處。

如同計(jì)算機(jī)視覺(jué)系統(tǒng)對(duì)于對(duì)抗性輸入的魯棒性研究對(duì)當(dāng)今的機(jī)器學(xué)習(xí)實(shí)際應(yīng)用至關(guān)重要，智能體對(duì)齊研究同樣有望成為機(jī)器學(xué)習(xí)系統(tǒng)在復(fù)雜現(xiàn)實(shí)世界進(jìn)行部署的關(guān)鍵鑰匙?？傊祟?lèi)有理由保持樂(lè)觀：雖然學(xué)術(shù)研究上很可能會(huì)在試圖擴(kuò)大獎(jiǎng)勵(lì)模型時(shí)面臨挑戰(zhàn)，然而這些挑戰(zhàn)都是一些有望解決的具體技術(shù)性問(wèn)題。從這個(gè)意義上說(shuō)，這個(gè)研究方向已經(jīng)準(zhǔn)備就緒，可以對(duì)深度強(qiáng)化學(xué)習(xí)智能體進(jìn)行實(shí)證研究。

協(xié)助課題研究取得進(jìn)展是DeepMind日常工作中很重要的一個(gè)主題。如果作為研究者、工程師或者有天賦的通才，有興趣參與DeepMind的研究中來(lái)，DeepMind也歡迎他們申請(qǐng)加入自己的研究團(tuán)隊(duì)。

精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

和 DeepMind 一起考慮如何在 AI 中重現(xiàn)人類(lèi)的價(jià)值觀

相關(guān)文章

人工智能企業(yè)

人工智能硬件

人工智能產(chǎn)業(yè)

人工智能技術(shù)