精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

DeepMind最新論文:強(qiáng)化學(xué)習(xí)“足以”達(dá)到通用人工智能

2021-07-04 15:50:13AI云資訊1163

從 1956 年達(dá)特茅斯會(huì)議首次定義人工智能(AI)至今,人工智能已經(jīng)經(jīng)歷了 60 多年的發(fā)展歷程,計(jì)算機(jī)領(lǐng)域的科學(xué)家們?nèi)〉昧艘淮斡忠淮蔚母锩赃M(jìn)步,從機(jī)器學(xué)習(xí)、深度學(xué)習(xí)到強(qiáng)化學(xué)習(xí),科學(xué)家們?cè)O(shè)計(jì)開(kāi)發(fā)出了許多復(fù)雜的人工智能機(jī)制和技術(shù),來(lái)復(fù)制人類(lèi)視覺(jué)、語(yǔ)言、推理、運(yùn)動(dòng)技能和其他與智能生命相關(guān)的能力。

盡管這些努力使得人工智能系統(tǒng)能夠在有限的環(huán)境中有效地解決一些特定的問(wèn)題,但目前還沒(méi)有開(kāi)發(fā)出像人類(lèi)和動(dòng)物一樣 “會(huì)思考的機(jī)器” ,“通用人工智能(AGI)” 時(shí)代尚未到來(lái),想要讓機(jī)器完全模擬人類(lèi)進(jìn)行自主學(xué)習(xí)、模式識(shí)別、想象創(chuàng)造等活動(dòng)看起來(lái)遙不可及。

盡管一些樂(lè)觀主義者認(rèn)為通用人工智能離我們不到十年,但一項(xiàng)針對(duì)機(jī)器學(xué)習(xí)專(zhuān)家的大型調(diào)查表明,如果存在通用人工智能,那我們可能要到 2040 年左右才能擁有它。

近日,來(lái)自 DeepMind 的科學(xué)家在提交給同行評(píng)議的期刊《人工智能》(Artificial Intelligence)上的一篇題為 “Reward is enough” 的論文中認(rèn)為,人工智能及其相關(guān)能力不是通過(guò)制定和解決復(fù)雜問(wèn)題而產(chǎn)生的,而是通過(guò)堅(jiān)持一個(gè)簡(jiǎn)單而強(qiáng)大的原則:獎(jiǎng)勵(lì)最大化。

(來(lái)源:ScienceDirect)

該研究由 DeepMind 首席研究科學(xué)家、倫敦大學(xué)學(xué)院教授 David Silver 領(lǐng)銜,研究靈感源于他們對(duì)自然智能的進(jìn)化研究以及人工智能的最新成就,在撰寫(xiě)論文時(shí)仍處于預(yù)證明階段。研究人員認(rèn)為,獎(jiǎng)勵(lì)最大化和試錯(cuò)經(jīng)驗(yàn)足以培養(yǎng)表現(xiàn)出與智力相關(guān)的能力行為。由此,他們得出結(jié)論,強(qiáng)化學(xué)習(xí)是基于獎(jiǎng)勵(lì)最大化的人工智能分支,可以推動(dòng)通用人工智能的發(fā)展。

“獎(jiǎng)勵(lì)最大化” 的人工智能實(shí)現(xiàn)途徑

創(chuàng)建人工智能的一種常見(jiàn)方法就是在計(jì)算機(jī)中嘗試復(fù)制智能行為的元素。例如,我們對(duì)哺乳動(dòng)物視覺(jué)系統(tǒng)的理解催生了各種人工智能系統(tǒng),來(lái)實(shí)現(xiàn)對(duì)圖像進(jìn)行分類(lèi)、定位照片中的對(duì)象、定義對(duì)象之間的邊界等等。同樣,我們對(duì)語(yǔ)言的理解有助于開(kāi)發(fā)各種自然語(yǔ)言處理系統(tǒng),例如回答問(wèn)題、文本生成和機(jī)器翻譯。

這些都是狹義人工智能的實(shí)例,這些系統(tǒng)旨在執(zhí)行特定任務(wù),而不是具有一般解決問(wèn)題的能力。一些科學(xué)家認(rèn)為,組裝多個(gè)狹義的人工智能模塊會(huì)產(chǎn)生更高的智能系統(tǒng)。例如,我們可以擁有一個(gè)軟件系統(tǒng),在單獨(dú)的計(jì)算機(jī)視覺(jué)、語(yǔ)音處理、NLP 和電機(jī)控制模塊之間進(jìn)行協(xié)調(diào),以解決需要多種技能的復(fù)雜問(wèn)題。

相比之下,通用人工智能有時(shí)也被稱(chēng)為人類(lèi)級(jí)別的人工智能,它更像是《星球大戰(zhàn)》中的 C-3PO,因?yàn)樗梢岳斫馍舷挛?、潛臺(tái)詞和社會(huì)線(xiàn)索,甚至被認(rèn)為可能完全超過(guò)人類(lèi)。

(來(lái)源:pixabay)

Deep Mind 的研究人員提出的另一種創(chuàng)建人工智能的方法:重新創(chuàng)建產(chǎn)生自然智能的簡(jiǎn)單而有效的規(guī)則。為什么自然界中的的動(dòng)物和人類(lèi)會(huì)表現(xiàn)出豐富多樣的智能行為?Silver 等人指出,可能是由于每一種能力都源于對(duì)一個(gè)目標(biāo)的追求,而這個(gè)目標(biāo)是專(zhuān)門(mén)為激發(fā)這種能力而設(shè)計(jì)的。為此,該研究設(shè)計(jì)了一個(gè)替代假設(shè):最大化獎(jiǎng)勵(lì)的一般目標(biāo)足以驅(qū)動(dòng)表現(xiàn)出自然和人工智能研究的大部分(盡管不是全部)能力的行為?!?

這種假設(shè)基本上是遵守達(dá)爾文的生物進(jìn)化論。從科學(xué)的角度分析,在我們周?chē)吹降膹?fù)雜有機(jī)體中,并沒(méi)有自上而下的智能設(shè)計(jì)。數(shù)十億年的自然選擇和隨機(jī)變異過(guò)濾了生命形式,使其適合生存和繁殖,能夠更好地應(yīng)對(duì)環(huán)境中的挑戰(zhàn)和情況的生物設(shè)法生存和繁殖。其余的都被淘汰了。

這種簡(jiǎn)單而有效的機(jī)制導(dǎo)致了具有各種感知、導(dǎo)航、改變環(huán)境和相互交流的技能和能力的生物去進(jìn)化。

圖 | “獎(jiǎng)勵(lì)就足夠” 的假設(shè),假定智力及其相關(guān)能力可以被理解為在其環(huán)境中行動(dòng)的主體促進(jìn)獎(jiǎng)勵(lì)的最大化

研究人員在論文中寫(xiě)道:“動(dòng)物和人類(lèi)面臨的自然世界,以及人工代理未來(lái)面臨的環(huán)境,本質(zhì)上都是如此復(fù)雜,以至于它們需要復(fù)雜的能力才能在這些環(huán)境中生存下來(lái)。因此,以獎(jiǎng)勵(lì)最大化來(lái)衡量的成功需要各種與智力相關(guān)的能力。在這樣的環(huán)境中,任何使獎(jiǎng)勵(lì)最大化的行為都必須表現(xiàn)出這些能力。從這個(gè)意義上說(shuō),獎(jiǎng)勵(lì)最大化的一般目標(biāo)包含許多甚至可能的所有智能目標(biāo)?!?

例如,考慮一只松鼠,它為了尋求減少饑餓的獎(jiǎng)勵(lì)。一方面,它的感官和運(yùn)動(dòng)技能幫助它在有食物時(shí)定位和收集堅(jiān)果。但是,當(dāng)食物變得稀缺時(shí),一只只去尋找食物的松鼠必然會(huì)餓死。這就是為什么它也有計(jì)劃技能和記憶來(lái)緩存堅(jiān)果并在冬天恢復(fù)它們。松鼠具有社交技能和知識(shí),可以確保其他動(dòng)物不會(huì)偷吃它的堅(jiān)果。如果你放大來(lái)看,饑餓最小化可能是 “活下去” 的一個(gè)子目標(biāo),這還需要一些技能,例如發(fā)現(xiàn)和躲避危險(xiǎn)動(dòng)物、保護(hù)自己免受環(huán)境威脅以及尋找季節(jié)性變化的更好棲息地。

研究人員寫(xiě)道:“當(dāng)與智力相關(guān)的能力作為獎(jiǎng)勵(lì)最大化的單一目標(biāo)的解決方案出現(xiàn)時(shí),這實(shí)際上可能提供了一個(gè)更深入的理解,因?yàn)樗忉屃藶槭裁催@種能力會(huì)出現(xiàn)。相反,當(dāng)每一種能力被理解為其自身專(zhuān)門(mén)目標(biāo)的解決方案時(shí),為了關(guān)注該能力的作用,為什么的問(wèn)題就被繞開(kāi)了?!?

研究人員認(rèn)為,在可能的獎(jiǎng)勵(lì)最大化方法中,最通用和可擴(kuò)展的方法是智能體通過(guò)試錯(cuò)及與環(huán)境的交互來(lái)學(xué)習(xí)這樣做。

通過(guò) “獎(jiǎng)勵(lì)最大化” 發(fā)展能力

在這篇論文中,研究人員列舉了一些高級(jí)示例,來(lái)說(shuō)明 “在為許多可能的獎(jiǎng)勵(lì)信號(hào)最大化服務(wù)中,智能和相關(guān)能力將如何隱含地出現(xiàn),對(duì)應(yīng)于自然或人工智能可能指向的許多實(shí)用的目標(biāo)?!?

在知識(shí)和學(xué)習(xí)方面,研究人員將知識(shí)定義為代理人的內(nèi)部信息,包含代理人選擇行動(dòng)、預(yù)測(cè)累積獎(jiǎng)勵(lì)或預(yù)測(cè)未來(lái)觀察的特征,這些知識(shí)有先天具備的,也有后天學(xué)習(xí)而來(lái)的知識(shí)。獎(jiǎng)勵(lì)和環(huán)境也塑造了動(dòng)物與生俱來(lái)的知識(shí)。例如,由獅子和獵豹等掠食性動(dòng)物統(tǒng)治的敵對(duì)棲息地會(huì)獎(jiǎng)勵(lì)反芻動(dòng)物,它們自出生以來(lái)就具有逃避威脅的先天知識(shí)。同時(shí),動(dòng)物也因其學(xué)習(xí)棲息地特定知識(shí)的能力而獲得獎(jiǎng)勵(lì),例如在哪里可以找到食物和住所。

通過(guò)列舉生物世界的學(xué)習(xí),說(shuō)明環(huán)境可能同時(shí)需要先天和后天的知識(shí),獎(jiǎng)勵(lì)最大化的代理將在需要時(shí),通過(guò)自然代理的進(jìn)化和人工代理的設(shè)計(jì)包含前者,并通過(guò)學(xué)習(xí)獲得后者。在更豐富和更長(zhǎng)久的環(huán)境中,需求的平衡越來(lái)越向?qū)W習(xí)知識(shí)轉(zhuǎn)移。

(來(lái)源:VentureBeat)

在感知方面,動(dòng)物的感官技能服務(wù)于在復(fù)雜環(huán)境中生存的需要。對(duì)象識(shí)別使動(dòng)物能夠檢測(cè)食物、獵物、朋友和威脅,或找到路徑、庇護(hù)所和棲息地;圖像分割使他們能夠分辨不同對(duì)象之間的差異,并避免致命錯(cuò)誤,例如跑下懸崖或從樹(shù)枝上掉下來(lái);聽(tīng)覺(jué)有助于發(fā)現(xiàn)動(dòng)物在偽裝時(shí)看不到或找不到獵物的威脅;觸覺(jué)、味覺(jué)和嗅覺(jué)也給動(dòng)物帶來(lái)優(yōu)勢(shì),使其對(duì)棲息地有更豐富的感官體驗(yàn),在危險(xiǎn)的環(huán)境中獲得更大的生存機(jī)會(huì)。

于是,研究人員假設(shè)感知可以被理解為服務(wù)于獎(jiǎng)勵(lì)的最大化。從獎(jiǎng)勵(lì)最大化而不是監(jiān)督學(xué)習(xí)的角度考慮感知,最終可能會(huì)支持更大范圍的感知行為,包括具有挑戰(zhàn)性和現(xiàn)實(shí)形式的感知能力。

在社會(huì)智能方面,研究人員假設(shè)社會(huì)智能可以被理解為在包含其他代理人的環(huán)境中,從一個(gè)代理人的角度最大化累積獎(jiǎng)勵(lì)來(lái)實(shí)施,并推斷出如果一個(gè)環(huán)境需要社會(huì)智能,獎(jiǎng)勵(lì)最大化將產(chǎn)生社會(huì)智能。

在語(yǔ)言理解方面,研究人員假設(shè)語(yǔ)言能力的全部豐富性,包括所有這些更廣泛的能力,產(chǎn)生于對(duì)獎(jiǎng)勵(lì)的追求,而理解和產(chǎn)生語(yǔ)言的壓力可以來(lái)自許多獎(jiǎng)勵(lì)增加的好處。例如,一個(gè)代理人能夠理解 "危險(xiǎn)" 警告,那么它就可以預(yù)測(cè)并避免負(fù)面的獎(jiǎng)勵(lì);如果一個(gè)代理可以產(chǎn)生 "取" 的命令,可能會(huì)導(dǎo)致環(huán)境將一個(gè)物體移到代理的附近。這些獎(jiǎng)勵(lì)的好處可能最終會(huì)導(dǎo)致代理人具備各種復(fù)雜的語(yǔ)言技能。

它是一個(gè)代理人根據(jù)復(fù)雜的觀察序列(如接收句子)產(chǎn)生復(fù)雜的行動(dòng)序列(如說(shuō)出句子),以影響環(huán)境中的其他代理人并積累更大的獎(jiǎng)勵(lì)的能力的一個(gè)實(shí)例。理解和產(chǎn)生語(yǔ)言的壓力可以來(lái)自許多獎(jiǎng)勵(lì)增加的好處。

研究人員還討論了泛化、模仿以及一般智能的獎(jiǎng)勵(lì)驅(qū)動(dòng)基礎(chǔ),將其描述為 “在單一、復(fù)雜的環(huán)境中使單一獎(jiǎng)勵(lì)最大化 "。在這項(xiàng)研究中,研究人員在自然智能和通用人工智能之間進(jìn)行了類(lèi)比:“動(dòng)物的經(jīng)驗(yàn)流足夠豐富和多樣的,它可能需要一種靈活的能力來(lái)實(shí)現(xiàn)各種各樣的子目標(biāo)(例如覓食、戰(zhàn)斗或逃跑),以便成功地最大化其整體獎(jiǎng)勵(lì)(例如饑餓或繁殖)。類(lèi)似地,如果一個(gè)人工智能代理的經(jīng)驗(yàn)流足夠豐富,那么許多目標(biāo)(例如電池壽命或生存)可能隱含地需要實(shí)現(xiàn)同樣廣泛的子目標(biāo)的能力,因此獎(jiǎng)勵(lì)的最大化應(yīng)該足以產(chǎn)生一種通用的人工智能?!?

“獎(jiǎng)勵(lì)最大化” 的強(qiáng)化學(xué)習(xí)

按照人工智能之父 John McCarthy 的說(shuō)法,“智力是在世界范圍內(nèi)實(shí)現(xiàn)目標(biāo)的能力的計(jì)算部分”,而后來(lái)發(fā)展起來(lái)的強(qiáng)化學(xué)習(xí)將尋求目標(biāo)的智能問(wèn)題正式化,對(duì)應(yīng)于不同智能形式的獎(jiǎng)勵(lì)信號(hào),在不同的環(huán)境中如何實(shí)現(xiàn)最大化。

強(qiáng)化學(xué)習(xí)是人工智能算法的一個(gè)特殊分支,由三個(gè)關(guān)鍵要素組成:環(huán)境(Environment)、代理(Agent)和獎(jiǎng)勵(lì)(Reward)。通過(guò)執(zhí)行操作,代理會(huì)改變自己和環(huán)境的狀態(tài)。根據(jù)這些動(dòng)作對(duì)代理必須實(shí)現(xiàn)的目標(biāo)的影響程度,對(duì)其進(jìn)行獎(jiǎng)勵(lì)或懲罰。在許多強(qiáng)化學(xué)習(xí)問(wèn)題中,智能體沒(méi)有環(huán)境的初始知識(shí),并從隨機(jī)動(dòng)作開(kāi)始。根據(jù)收到的反饋,代理學(xué)習(xí)調(diào)整其行為并制定最大化其獎(jiǎng)勵(lì)的策略。

(來(lái)源:TechTalks)

在強(qiáng)化學(xué)習(xí)研究領(lǐng)域的一個(gè)著名的例子:敲鑼訓(xùn)猴。馴獸師在訓(xùn)練猴子時(shí),以敲鑼為信號(hào)來(lái)訓(xùn)練猴子站立敬禮,每當(dāng)猴子很好地完成站立敬禮的動(dòng)作,就會(huì)獲得一定的食物獎(jiǎng)勵(lì);如果沒(méi)有完成或者完成的不對(duì),不僅不會(huì)得到食物獎(jiǎng)勵(lì),甚至?xí)玫揭活D鞭子抽打。由于聽(tīng)到敲鑼后站立敬禮是猴子在所處環(huán)境下能夠獲得的最大收益,所以時(shí)間長(zhǎng)了猴子自然在聽(tīng)到馴獸師敲鑼后,就會(huì)站立敬禮。

強(qiáng)化學(xué)習(xí)就是訓(xùn)練對(duì)象如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。在這篇論文中,DeepMind 的研究人員建議將強(qiáng)化學(xué)習(xí)作為主要算法,它可以復(fù)制自然界中看到的獎(jiǎng)勵(lì)最大化,并最終導(dǎo)致通用人工智能。

研究人員寫(xiě)道:“如果一個(gè)智能體可以不斷調(diào)整其行為以提高其累積獎(jiǎng)勵(lì),那么其環(huán)境反復(fù)要求的任何能力最終都必須在智能體的行為中產(chǎn)生?!? 并補(bǔ)充說(shuō),一個(gè)好的強(qiáng)化學(xué)習(xí)代理可以在學(xué)習(xí)過(guò)程中獲得表現(xiàn)出感知、語(yǔ)言、社會(huì)智能等的行為,以便在一個(gè)環(huán)境(如人類(lèi)世界)中實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化,在這個(gè)環(huán)境中,這些能力具有持續(xù)的價(jià)值。

在論文中,研究人員提供了幾個(gè)例子,展示了強(qiáng)化學(xué)習(xí)代理如何能夠在游戲和機(jī)器人環(huán)境中學(xué)習(xí)一般技能。例如,當(dāng)被要求在圍棋比賽中取得最大勝利時(shí),AlphaZero 學(xué)會(huì)了跨越圍棋許多方面的綜合智能。

然而,研究人員強(qiáng)調(diào),一些根本性的挑戰(zhàn)仍未解決,他們并沒(méi)有對(duì)強(qiáng)化學(xué)習(xí)代理的樣本效率提供任何理論上的保證。而是猜想,當(dāng)強(qiáng)大的強(qiáng)化學(xué)習(xí)代理被置于復(fù)雜的環(huán)境中時(shí),將在實(shí)踐中產(chǎn)生復(fù)雜的智能表達(dá)。如果這個(gè)猜想是正確的,它將為實(shí)現(xiàn)人工通用智能提供了一條完整的途徑。

強(qiáng)化學(xué)習(xí)以需要大量數(shù)據(jù)而聞名,強(qiáng)化學(xué)習(xí)代理可能需要幾個(gè)世紀(jì)的游戲時(shí)間才能掌握計(jì)算機(jī)游戲。研究人員仍然沒(méi)有想出如何創(chuàng)建強(qiáng)化學(xué)習(xí)系統(tǒng)來(lái)將他們的學(xué)習(xí)推廣到多個(gè)領(lǐng)域。因此,環(huán)境的微小變化通常需要對(duì)模型進(jìn)行全面的重新訓(xùn)練。

研究人員還承認(rèn),獎(jiǎng)勵(lì)最大化的學(xué)習(xí)機(jī)制是一個(gè)未解決的問(wèn)題,仍然是強(qiáng)化學(xué)習(xí)中有待進(jìn)一步研究的核心問(wèn)題。論文拋出了整個(gè)強(qiáng)化學(xué)習(xí)領(lǐng)域研究的一個(gè)核心問(wèn)題,即如何在一個(gè)實(shí)用的代理中有效地學(xué)習(xí)獎(jiǎng)勵(lì)最大化。

“獎(jiǎng)勵(lì)最大化” 的優(yōu)缺點(diǎn)

加州大學(xué)圣地亞哥分校的神經(jīng)科學(xué)家、哲學(xué)家和名譽(yù)教授帕特里夏?丘奇蘭(Patricia Churchland)將該論文中的想法描述為 “非常仔細(xì)和有見(jiàn)地的解決方案”。

然而,Churchland 也指出了該論文關(guān)于社會(huì)決策的討論中可能存在的缺陷。Churchland 最近寫(xiě)了一本關(guān)于道德直覺(jué)的生物學(xué)起源的書(shū),他認(rèn)為依戀和聯(lián)系是哺乳動(dòng)物和鳥(niǎo)類(lèi)社會(huì)決策的一個(gè)強(qiáng)大因素,這就是為什么動(dòng)物為了保護(hù)他們的孩子而將自己置于極大的危險(xiǎn)之中。

Churchland 說(shuō):“我傾向于將親密關(guān)系以及其他人的關(guān)懷視為自己,也就是 “我和我” 的范圍的延伸。在這種情況下,我認(rèn)為,對(duì)論文假設(shè)進(jìn)行小幅修改以實(shí)現(xiàn)對(duì) “我和我” 的獎(jiǎng)勵(lì)最大化會(huì)非常有效。當(dāng)然,我們?nèi)壕觿?dòng)物都有依戀程度,對(duì)后代超強(qiáng)依戀、對(duì)配偶和親屬非常強(qiáng)依戀,對(duì)朋友和熟人很強(qiáng)依戀等等,依戀類(lèi)型的強(qiáng)度會(huì)因環(huán)境和發(fā)育階段而異?!?

Churchland 表示,這不是一個(gè)主要的批評(píng),并且很可能會(huì)非常優(yōu)雅地融入這個(gè)假設(shè)。Churchland 說(shuō):“我對(duì)論文的詳細(xì)程度以及他們考慮可能存在的弱點(diǎn)的仔細(xì)程度印象深刻。我可能也不對(duì),但我傾向于認(rèn)為這是一個(gè)里程碑。”

針對(duì) “哪一個(gè)通用目標(biāo)可以產(chǎn)生所有形式的智能” 這一問(wèn)題。研究人員在討論部分提到,在不同的環(huán)境中實(shí)現(xiàn)不同的獎(jiǎng)勵(lì)最大化可能會(huì)導(dǎo)致不同的、強(qiáng)大的智能形式,每一種智能都會(huì)表現(xiàn)出自己令人印象深刻的、但又無(wú)法比擬的一系列能力。一個(gè)好的獎(jiǎng)勵(lì)最大化的代理將利用其環(huán)境中存在的任何元素,但某種形式的智能的出現(xiàn)并不以它們的具體內(nèi)容為前提。

相比于只有精心構(gòu)建的獎(jiǎng)勵(lì)才有可能誘發(fā)一般的智力,研究人員認(rèn)為人工智能代理智力的出現(xiàn)可能對(duì)獎(jiǎng)勵(lì)信號(hào)的性質(zhì)相當(dāng)穩(wěn)健。此外,他們建議強(qiáng)化學(xué)習(xí)問(wèn)題也可以轉(zhuǎn)化為一個(gè)概率框架,接近于獎(jiǎng)勵(lì)最大化的目標(biāo)。

(來(lái)源:pixabay)

數(shù)據(jù)科學(xué)家 Herbert Roitblat 對(duì)該論文的立場(chǎng)提出了挑戰(zhàn),即簡(jiǎn)單的學(xué)習(xí)機(jī)制和試錯(cuò)經(jīng)驗(yàn)足以培養(yǎng)與智能相關(guān)的能力。Roitblat 認(rèn)為,論文中提出的理論在現(xiàn)實(shí)生活中實(shí)施時(shí)面臨著一些挑戰(zhàn)。

Roitblat 說(shuō) “如果沒(méi)有時(shí)間限制,那么試錯(cuò)學(xué)習(xí)可能就足夠了,否則我們就會(huì)遇到無(wú)限數(shù)量的猴子在無(wú)限長(zhǎng)的時(shí)間內(nèi)打字的問(wèn)題?!?無(wú)限猴子定理指出,一只猴子在無(wú)限長(zhǎng)的時(shí)間內(nèi)敲打打字機(jī)上的隨機(jī)鍵,最終可能會(huì)打出任何給定的文本。

Roitblat 在《Algorithms are Not Enough》一書(shū)中解釋了為什么所有當(dāng)前包括強(qiáng)化學(xué)習(xí)在內(nèi)的人工智能算法,都需要仔細(xì)制定人類(lèi)創(chuàng)建的問(wèn)題和表示。他表示,一旦建立了模型及其內(nèi)在表示,優(yōu)化或強(qiáng)化就可以指導(dǎo)其進(jìn)化,但這并不意味著強(qiáng)化就足夠了。同樣,Roitblat 補(bǔ)充說(shuō),該論文沒(méi)有就如何定義強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)、動(dòng)作和其他元素提出任何建議。

Roitblat 說(shuō):“強(qiáng)化學(xué)習(xí)假設(shè)智能體具有一組有限的潛在動(dòng)作。已經(jīng)指定了獎(jiǎng)勵(lì)信號(hào)和價(jià)值函數(shù)。換句話(huà)說(shuō),通用智能的問(wèn)題恰恰是提供強(qiáng)化學(xué)習(xí)作為先決條件的那些東西。因此,如果機(jī)器學(xué)習(xí)都可以簡(jiǎn)化為某種形式的優(yōu)化,以最大化某些評(píng)估措施,那么強(qiáng)化學(xué)習(xí)肯定是相關(guān)的,但它的解釋性并不強(qiáng)?!?

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛(ài)云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews