在线成人a毛片免费播放,最近高清中文字幕免费mv,精品一卡三卡4卡乱码

從 1956 年達(dá)特茅斯會(huì)議首次定義人工智能（AI）至今，人工智能已經(jīng)經(jīng)歷了 60 多年的發(fā)展歷程，計(jì)算機(jī)領(lǐng)域的科學(xué)家們?nèi)〉昧艘淮斡忠淮蔚母锩赃M(jìn)步，從機(jī)器學(xué)習(xí)、深度學(xué)習(xí)到強(qiáng)化學(xué)習(xí)，科學(xué)家們?cè)O(shè)計(jì)開(kāi)發(fā)出了許多復(fù)雜的人工智能機(jī)制和技術(shù)，來(lái)復(fù)制人類(lèi)視覺(jué)、語(yǔ)言、推理、運(yùn)動(dòng)技能和其他與智能生命相關(guān)的能力。

盡管這些努力使得人工智能系統(tǒng)能夠在有限的環(huán)境中有效地解決一些特定的問(wèn)題，但目前還沒(méi)有開(kāi)發(fā)出像人類(lèi)和動(dòng)物一樣 “會(huì)思考的機(jī)器” ，“通用人工智能（AGI）” 時(shí)代尚未到來(lái)，想要讓機(jī)器完全模擬人類(lèi)進(jìn)行自主學(xué)習(xí)、模式識(shí)別、想象創(chuàng)造等活動(dòng)看起來(lái)遙不可及。

盡管一些樂(lè)觀主義者認(rèn)為通用人工智能離我們不到十年，但一項(xiàng)針對(duì)機(jī)器學(xué)習(xí)專(zhuān)家的大型調(diào)查表明，如果存在通用人工智能，那我們可能要到 2040 年左右才能擁有它。

近日，來(lái)自 DeepMind 的科學(xué)家在提交給同行評(píng)議的期刊《人工智能》（Artificial Intelligence）上的一篇題為 “Reward is enough” 的論文中認(rèn)為，人工智能及其相關(guān)能力不是通過(guò)制定和解決復(fù)雜問(wèn)題而產(chǎn)生的，而是通過(guò)堅(jiān)持一個(gè)簡(jiǎn)單而強(qiáng)大的原則：獎(jiǎng)勵(lì)最大化。

（來(lái)源：ScienceDirect）

該研究由 DeepMind 首席研究科學(xué)家、倫敦大學(xué)學(xué)院教授 David Silver 領(lǐng)銜，研究靈感源于他們對(duì)自然智能的進(jìn)化研究以及人工智能的最新成就，在撰寫(xiě)論文時(shí)仍處于預(yù)證明階段。研究人員認(rèn)為，獎(jiǎng)勵(lì)最大化和試錯(cuò)經(jīng)驗(yàn)足以培養(yǎng)表現(xiàn)出與智力相關(guān)的能力行為。由此，他們得出結(jié)論，強(qiáng)化學(xué)習(xí)是基于獎(jiǎng)勵(lì)最大化的人工智能分支，可以推動(dòng)通用人工智能的發(fā)展。

“獎(jiǎng)勵(lì)最大化” 的人工智能實(shí)現(xiàn)途徑

創(chuàng)建人工智能的一種常見(jiàn)方法就是在計(jì)算機(jī)中嘗試復(fù)制智能行為的元素。例如，我們對(duì)哺乳動(dòng)物視覺(jué)系統(tǒng)的理解催生了各種人工智能系統(tǒng)，來(lái)實(shí)現(xiàn)對(duì)圖像進(jìn)行分類(lèi)、定位照片中的對(duì)象、定義對(duì)象之間的邊界等等。同樣，我們對(duì)語(yǔ)言的理解有助于開(kāi)發(fā)各種自然語(yǔ)言處理系統(tǒng)，例如回答問(wèn)題、文本生成和機(jī)器翻譯。

這些都是狹義人工智能的實(shí)例，這些系統(tǒng)旨在執(zhí)行特定任務(wù)，而不是具有一般解決問(wèn)題的能力。一些科學(xué)家認(rèn)為，組裝多個(gè)狹義的人工智能模塊會(huì)產(chǎn)生更高的智能系統(tǒng)。例如，我們可以擁有一個(gè)軟件系統(tǒng)，在單獨(dú)的計(jì)算機(jī)視覺(jué)、語(yǔ)音處理、NLP 和電機(jī)控制模塊之間進(jìn)行協(xié)調(diào)，以解決需要多種技能的復(fù)雜問(wèn)題。

相比之下，通用人工智能有時(shí)也被稱(chēng)為人類(lèi)級(jí)別的人工智能，它更像是《星球大戰(zhàn)》中的 C-3PO，因?yàn)樗梢岳斫馍舷挛?、潛臺(tái)詞和社會(huì)線(xiàn)索，甚至被認(rèn)為可能完全超過(guò)人類(lèi)。

（來(lái)源：pixabay）

Deep Mind 的研究人員提出的另一種創(chuàng)建人工智能的方法：重新創(chuàng)建產(chǎn)生自然智能的簡(jiǎn)單而有效的規(guī)則。為什么自然界中的的動(dòng)物和人類(lèi)會(huì)表現(xiàn)出豐富多樣的智能行為？Silver 等人指出，可能是由于每一種能力都源于對(duì)一個(gè)目標(biāo)的追求，而這個(gè)目標(biāo)是專(zhuān)門(mén)為激發(fā)這種能力而設(shè)計(jì)的。為此，該研究設(shè)計(jì)了一個(gè)替代假設(shè)：最大化獎(jiǎng)勵(lì)的一般目標(biāo)足以驅(qū)動(dòng)表現(xiàn)出自然和人工智能研究的大部分（盡管不是全部）能力的行為?！?

這種假設(shè)基本上是遵守達(dá)爾文的生物進(jìn)化論。從科學(xué)的角度分析，在我們周?chē)吹降膹?fù)雜有機(jī)體中，并沒(méi)有自上而下的智能設(shè)計(jì)。數(shù)十億年的自然選擇和隨機(jī)變異過(guò)濾了生命形式，使其適合生存和繁殖，能夠更好地應(yīng)對(duì)環(huán)境中的挑戰(zhàn)和情況的生物設(shè)法生存和繁殖。其余的都被淘汰了。

這種簡(jiǎn)單而有效的機(jī)制導(dǎo)致了具有各種感知、導(dǎo)航、改變環(huán)境和相互交流的技能和能力的生物去進(jìn)化。

圖 | “獎(jiǎng)勵(lì)就足夠” 的假設(shè)，假定智力及其相關(guān)能力可以被理解為在其環(huán)境中行動(dòng)的主體促進(jìn)獎(jiǎng)勵(lì)的最大化

研究人員在論文中寫(xiě)道：“動(dòng)物和人類(lèi)面臨的自然世界，以及人工代理未來(lái)面臨的環(huán)境，本質(zhì)上都是如此復(fù)雜，以至于它們需要復(fù)雜的能力才能在這些環(huán)境中生存下來(lái)。因此，以獎(jiǎng)勵(lì)最大化來(lái)衡量的成功需要各種與智力相關(guān)的能力。在這樣的環(huán)境中，任何使獎(jiǎng)勵(lì)最大化的行為都必須表現(xiàn)出這些能力。從這個(gè)意義上說(shuō)，獎(jiǎng)勵(lì)最大化的一般目標(biāo)包含許多甚至可能的所有智能目標(biāo)?！?

例如，考慮一只松鼠，它為了尋求減少饑餓的獎(jiǎng)勵(lì)。一方面，它的感官和運(yùn)動(dòng)技能幫助它在有食物時(shí)定位和收集堅(jiān)果。但是，當(dāng)食物變得稀缺時(shí)，一只只去尋找食物的松鼠必然會(huì)餓死。這就是為什么它也有計(jì)劃技能和記憶來(lái)緩存堅(jiān)果并在冬天恢復(fù)它們。松鼠具有社交技能和知識(shí)，可以確保其他動(dòng)物不會(huì)偷吃它的堅(jiān)果。如果你放大來(lái)看，饑餓最小化可能是 “活下去” 的一個(gè)子目標(biāo)，這還需要一些技能，例如發(fā)現(xiàn)和躲避危險(xiǎn)動(dòng)物、保護(hù)自己免受環(huán)境威脅以及尋找季節(jié)性變化的更好棲息地。

研究人員寫(xiě)道：“當(dāng)與智力相關(guān)的能力作為獎(jiǎng)勵(lì)最大化的單一目標(biāo)的解決方案出現(xiàn)時(shí)，這實(shí)際上可能提供了一個(gè)更深入的理解，因?yàn)樗忉屃藶槭裁催@種能力會(huì)出現(xiàn)。相反，當(dāng)每一種能力被理解為其自身專(zhuān)門(mén)目標(biāo)的解決方案時(shí)，為了關(guān)注該能力的作用，為什么的問(wèn)題就被繞開(kāi)了?！?

研究人員認(rèn)為，在可能的獎(jiǎng)勵(lì)最大化方法中，最通用和可擴(kuò)展的方法是智能體通過(guò)試錯(cuò)及與環(huán)境的交互來(lái)學(xué)習(xí)這樣做。

通過(guò) “獎(jiǎng)勵(lì)最大化” 發(fā)展能力

在這篇論文中，研究人員列舉了一些高級(jí)示例，來(lái)說(shuō)明 “在為許多可能的獎(jiǎng)勵(lì)信號(hào)最大化服務(wù)中，智能和相關(guān)能力將如何隱含地出現(xiàn)，對(duì)應(yīng)于自然或人工智能可能指向的許多實(shí)用的目標(biāo)?！?

在知識(shí)和學(xué)習(xí)方面，研究人員將知識(shí)定義為代理人的內(nèi)部信息，包含代理人選擇行動(dòng)、預(yù)測(cè)累積獎(jiǎng)勵(lì)或預(yù)測(cè)未來(lái)觀察的特征，這些知識(shí)有先天具備的，也有后天學(xué)習(xí)而來(lái)的知識(shí)。獎(jiǎng)勵(lì)和環(huán)境也塑造了動(dòng)物與生俱來(lái)的知識(shí)。例如，由獅子和獵豹等掠食性動(dòng)物統(tǒng)治的敵對(duì)棲息地會(huì)獎(jiǎng)勵(lì)反芻動(dòng)物，它們自出生以來(lái)就具有逃避威脅的先天知識(shí)。同時(shí)，動(dòng)物也因其學(xué)習(xí)棲息地特定知識(shí)的能力而獲得獎(jiǎng)勵(lì)，例如在哪里可以找到食物和住所。

通過(guò)列舉生物世界的學(xué)習(xí)，說(shuō)明環(huán)境可能同時(shí)需要先天和后天的知識(shí)，獎(jiǎng)勵(lì)最大化的代理將在需要時(shí)，通過(guò)自然代理的進(jìn)化和人工代理的設(shè)計(jì)包含前者，并通過(guò)學(xué)習(xí)獲得后者。在更豐富和更長(zhǎng)久的環(huán)境中，需求的平衡越來(lái)越向?qū)W習(xí)知識(shí)轉(zhuǎn)移。

（來(lái)源：VentureBeat）

在感知方面，動(dòng)物的感官技能服務(wù)于在復(fù)雜環(huán)境中生存的需要。對(duì)象識(shí)別使動(dòng)物能夠檢測(cè)食物、獵物、朋友和威脅，或找到路徑、庇護(hù)所和棲息地；圖像分割使他們能夠分辨不同對(duì)象之間的差異，并避免致命錯(cuò)誤，例如跑下懸崖或從樹(shù)枝上掉下來(lái)；聽(tīng)覺(jué)有助于發(fā)現(xiàn)動(dòng)物在偽裝時(shí)看不到或找不到獵物的威脅；觸覺(jué)、味覺(jué)和嗅覺(jué)也給動(dòng)物帶來(lái)優(yōu)勢(shì)，使其對(duì)棲息地有更豐富的感官體驗(yàn)，在危險(xiǎn)的環(huán)境中獲得更大的生存機(jī)會(huì)。

于是，研究人員假設(shè)感知可以被理解為服務(wù)于獎(jiǎng)勵(lì)的最大化。從獎(jiǎng)勵(lì)最大化而不是監(jiān)督學(xué)習(xí)的角度考慮感知，最終可能會(huì)支持更大范圍的感知行為，包括具有挑戰(zhàn)性和現(xiàn)實(shí)形式的感知能力。

在社會(huì)智能方面，研究人員假設(shè)社會(huì)智能可以被理解為在包含其他代理人的環(huán)境中，從一個(gè)代理人的角度最大化累積獎(jiǎng)勵(lì)來(lái)實(shí)施，并推斷出如果一個(gè)環(huán)境需要社會(huì)智能，獎(jiǎng)勵(lì)最大化將產(chǎn)生社會(huì)智能。

在語(yǔ)言理解方面，研究人員假設(shè)語(yǔ)言能力的全部豐富性，包括所有這些更廣泛的能力，產(chǎn)生于對(duì)獎(jiǎng)勵(lì)的追求，而理解和產(chǎn)生語(yǔ)言的壓力可以來(lái)自許多獎(jiǎng)勵(lì)增加的好處。例如，一個(gè)代理人能夠理解 "危險(xiǎn)" 警告，那么它就可以預(yù)測(cè)并避免負(fù)面的獎(jiǎng)勵(lì)；如果一個(gè)代理可以產(chǎn)生 "取" 的命令，可能會(huì)導(dǎo)致環(huán)境將一個(gè)物體移到代理的附近。這些獎(jiǎng)勵(lì)的好處可能最終會(huì)導(dǎo)致代理人具備各種復(fù)雜的語(yǔ)言技能。

它是一個(gè)代理人根據(jù)復(fù)雜的觀察序列（如接收句子）產(chǎn)生復(fù)雜的行動(dòng)序列（如說(shuō)出句子），以影響環(huán)境中的其他代理人并積累更大的獎(jiǎng)勵(lì)的能力的一個(gè)實(shí)例。理解和產(chǎn)生語(yǔ)言的壓力可以來(lái)自許多獎(jiǎng)勵(lì)增加的好處。

研究人員還討論了泛化、模仿以及一般智能的獎(jiǎng)勵(lì)驅(qū)動(dòng)基礎(chǔ)，將其描述為 “在單一、復(fù)雜的環(huán)境中使單一獎(jiǎng)勵(lì)最大化 "。在這項(xiàng)研究中，研究人員在自然智能和通用人工智能之間進(jìn)行了類(lèi)比：“動(dòng)物的經(jīng)驗(yàn)流足夠豐富和多樣的，它可能需要一種靈活的能力來(lái)實(shí)現(xiàn)各種各樣的子目標(biāo)（例如覓食、戰(zhàn)斗或逃跑），以便成功地最大化其整體獎(jiǎng)勵(lì)（例如饑餓或繁殖）。類(lèi)似地，如果一個(gè)人工智能代理的經(jīng)驗(yàn)流足夠豐富，那么許多目標(biāo)（例如電池壽命或生存）可能隱含地需要實(shí)現(xiàn)同樣廣泛的子目標(biāo)的能力，因此獎(jiǎng)勵(lì)的最大化應(yīng)該足以產(chǎn)生一種通用的人工智能?！?

“獎(jiǎng)勵(lì)最大化” 的強(qiáng)化學(xué)習(xí)

按照人工智能之父 John McCarthy 的說(shuō)法，“智力是在世界范圍內(nèi)實(shí)現(xiàn)目標(biāo)的能力的計(jì)算部分”，而后來(lái)發(fā)展起來(lái)的強(qiáng)化學(xué)習(xí)將尋求目標(biāo)的智能問(wèn)題正式化，對(duì)應(yīng)于不同智能形式的獎(jiǎng)勵(lì)信號(hào)，在不同的環(huán)境中如何實(shí)現(xiàn)最大化。

強(qiáng)化學(xué)習(xí)是人工智能算法的一個(gè)特殊分支，由三個(gè)關(guān)鍵要素組成：環(huán)境（Environment）、代理（Agent）和獎(jiǎng)勵(lì)（Reward）。通過(guò)執(zhí)行操作，代理會(huì)改變自己和環(huán)境的狀態(tài)。根據(jù)這些動(dòng)作對(duì)代理必須實(shí)現(xiàn)的目標(biāo)的影響程度，對(duì)其進(jìn)行獎(jiǎng)勵(lì)或懲罰。在許多強(qiáng)化學(xué)習(xí)問(wèn)題中，智能體沒(méi)有環(huán)境的初始知識(shí)，并從隨機(jī)動(dòng)作開(kāi)始。根據(jù)收到的反饋，代理學(xué)習(xí)調(diào)整其行為并制定最大化其獎(jiǎng)勵(lì)的策略。

（來(lái)源：TechTalks）

在強(qiáng)化學(xué)習(xí)研究領(lǐng)域的一個(gè)著名的例子：敲鑼訓(xùn)猴。馴獸師在訓(xùn)練猴子時(shí)，以敲鑼為信號(hào)來(lái)訓(xùn)練猴子站立敬禮，每當(dāng)猴子很好地完成站立敬禮的動(dòng)作，就會(huì)獲得一定的食物獎(jiǎng)勵(lì)；如果沒(méi)有完成或者完成的不對(duì)，不僅不會(huì)得到食物獎(jiǎng)勵(lì)，甚至?xí)玫揭活D鞭子抽打。由于聽(tīng)到敲鑼后站立敬禮是猴子在所處環(huán)境下能夠獲得的最大收益，所以時(shí)間長(zhǎng)了猴子自然在聽(tīng)到馴獸師敲鑼后，就會(huì)站立敬禮。

強(qiáng)化學(xué)習(xí)就是訓(xùn)練對(duì)象如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下，逐步形成對(duì)刺激的預(yù)期，產(chǎn)生能獲得最大利益的習(xí)慣性行為。在這篇論文中，DeepMind 的研究人員建議將強(qiáng)化學(xué)習(xí)作為主要算法，它可以復(fù)制自然界中看到的獎(jiǎng)勵(lì)最大化，并最終導(dǎo)致通用人工智能。

研究人員寫(xiě)道：“如果一個(gè)智能體可以不斷調(diào)整其行為以提高其累積獎(jiǎng)勵(lì)，那么其環(huán)境反復(fù)要求的任何能力最終都必須在智能體的行為中產(chǎn)生?！? 并補(bǔ)充說(shuō)，一個(gè)好的強(qiáng)化學(xué)習(xí)代理可以在學(xué)習(xí)過(guò)程中獲得表現(xiàn)出感知、語(yǔ)言、社會(huì)智能等的行為，以便在一個(gè)環(huán)境（如人類(lèi)世界）中實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化，在這個(gè)環(huán)境中，這些能力具有持續(xù)的價(jià)值。

在論文中，研究人員提供了幾個(gè)例子，展示了強(qiáng)化學(xué)習(xí)代理如何能夠在游戲和機(jī)器人環(huán)境中學(xué)習(xí)一般技能。例如，當(dāng)被要求在圍棋比賽中取得最大勝利時(shí)，AlphaZero 學(xué)會(huì)了跨越圍棋許多方面的綜合智能。

然而，研究人員強(qiáng)調(diào)，一些根本性的挑戰(zhàn)仍未解決，他們并沒(méi)有對(duì)強(qiáng)化學(xué)習(xí)代理的樣本效率提供任何理論上的保證。而是猜想，當(dāng)強(qiáng)大的強(qiáng)化學(xué)習(xí)代理被置于復(fù)雜的環(huán)境中時(shí)，將在實(shí)踐中產(chǎn)生復(fù)雜的智能表達(dá)。如果這個(gè)猜想是正確的，它將為實(shí)現(xiàn)人工通用智能提供了一條完整的途徑。

強(qiáng)化學(xué)習(xí)以需要大量數(shù)據(jù)而聞名，強(qiáng)化學(xué)習(xí)代理可能需要幾個(gè)世紀(jì)的游戲時(shí)間才能掌握計(jì)算機(jī)游戲。研究人員仍然沒(méi)有想出如何創(chuàng)建強(qiáng)化學(xué)習(xí)系統(tǒng)來(lái)將他們的學(xué)習(xí)推廣到多個(gè)領(lǐng)域。因此，環(huán)境的微小變化通常需要對(duì)模型進(jìn)行全面的重新訓(xùn)練。

研究人員還承認(rèn)，獎(jiǎng)勵(lì)最大化的學(xué)習(xí)機(jī)制是一個(gè)未解決的問(wèn)題，仍然是強(qiáng)化學(xué)習(xí)中有待進(jìn)一步研究的核心問(wèn)題。論文拋出了整個(gè)強(qiáng)化學(xué)習(xí)領(lǐng)域研究的一個(gè)核心問(wèn)題，即如何在一個(gè)實(shí)用的代理中有效地學(xué)習(xí)獎(jiǎng)勵(lì)最大化。

“獎(jiǎng)勵(lì)最大化” 的優(yōu)缺點(diǎn)

加州大學(xué)圣地亞哥分校的神經(jīng)科學(xué)家、哲學(xué)家和名譽(yù)教授帕特里夏?丘奇蘭（Patricia Churchland）將該論文中的想法描述為 “非常仔細(xì)和有見(jiàn)地的解決方案”。

然而，Churchland 也指出了該論文關(guān)于社會(huì)決策的討論中可能存在的缺陷。Churchland 最近寫(xiě)了一本關(guān)于道德直覺(jué)的生物學(xué)起源的書(shū)，他認(rèn)為依戀和聯(lián)系是哺乳動(dòng)物和鳥(niǎo)類(lèi)社會(huì)決策的一個(gè)強(qiáng)大因素，這就是為什么動(dòng)物為了保護(hù)他們的孩子而將自己置于極大的危險(xiǎn)之中。

Churchland 說(shuō)：“我傾向于將親密關(guān)系以及其他人的關(guān)懷視為自己，也就是 “我和我” 的范圍的延伸。在這種情況下，我認(rèn)為，對(duì)論文假設(shè)進(jìn)行小幅修改以實(shí)現(xiàn)對(duì) “我和我” 的獎(jiǎng)勵(lì)最大化會(huì)非常有效。當(dāng)然，我們?nèi)壕觿?dòng)物都有依戀程度，對(duì)后代超強(qiáng)依戀、對(duì)配偶和親屬非常強(qiáng)依戀，對(duì)朋友和熟人很強(qiáng)依戀等等，依戀類(lèi)型的強(qiáng)度會(huì)因環(huán)境和發(fā)育階段而異?！?

Churchland 表示，這不是一個(gè)主要的批評(píng)，并且很可能會(huì)非常優(yōu)雅地融入這個(gè)假設(shè)。Churchland 說(shuō)：“我對(duì)論文的詳細(xì)程度以及他們考慮可能存在的弱點(diǎn)的仔細(xì)程度印象深刻。我可能也不對(duì)，但我傾向于認(rèn)為這是一個(gè)里程碑。”

針對(duì) “哪一個(gè)通用目標(biāo)可以產(chǎn)生所有形式的智能” 這一問(wèn)題。研究人員在討論部分提到，在不同的環(huán)境中實(shí)現(xiàn)不同的獎(jiǎng)勵(lì)最大化可能會(huì)導(dǎo)致不同的、強(qiáng)大的智能形式，每一種智能都會(huì)表現(xiàn)出自己令人印象深刻的、但又無(wú)法比擬的一系列能力。一個(gè)好的獎(jiǎng)勵(lì)最大化的代理將利用其環(huán)境中存在的任何元素，但某種形式的智能的出現(xiàn)并不以它們的具體內(nèi)容為前提。

相比于只有精心構(gòu)建的獎(jiǎng)勵(lì)才有可能誘發(fā)一般的智力，研究人員認(rèn)為人工智能代理智力的出現(xiàn)可能對(duì)獎(jiǎng)勵(lì)信號(hào)的性質(zhì)相當(dāng)穩(wěn)健。此外，他們建議強(qiáng)化學(xué)習(xí)問(wèn)題也可以轉(zhuǎn)化為一個(gè)概率框架，接近于獎(jiǎng)勵(lì)最大化的目標(biāo)。

（來(lái)源：pixabay）

數(shù)據(jù)科學(xué)家 Herbert Roitblat 對(duì)該論文的立場(chǎng)提出了挑戰(zhàn)，即簡(jiǎn)單的學(xué)習(xí)機(jī)制和試錯(cuò)經(jīng)驗(yàn)足以培養(yǎng)與智能相關(guān)的能力。Roitblat 認(rèn)為，論文中提出的理論在現(xiàn)實(shí)生活中實(shí)施時(shí)面臨著一些挑戰(zhàn)。

Roitblat 說(shuō) “如果沒(méi)有時(shí)間限制，那么試錯(cuò)學(xué)習(xí)可能就足夠了，否則我們就會(huì)遇到無(wú)限數(shù)量的猴子在無(wú)限長(zhǎng)的時(shí)間內(nèi)打字的問(wèn)題?！?無(wú)限猴子定理指出，一只猴子在無(wú)限長(zhǎng)的時(shí)間內(nèi)敲打打字機(jī)上的隨機(jī)鍵，最終可能會(huì)打出任何給定的文本。

Roitblat 在《Algorithms are Not Enough》一書(shū)中解釋了為什么所有當(dāng)前包括強(qiáng)化學(xué)習(xí)在內(nèi)的人工智能算法，都需要仔細(xì)制定人類(lèi)創(chuàng)建的問(wèn)題和表示。他表示，一旦建立了模型及其內(nèi)在表示，優(yōu)化或強(qiáng)化就可以指導(dǎo)其進(jìn)化，但這并不意味著強(qiáng)化就足夠了。同樣，Roitblat 補(bǔ)充說(shuō)，該論文沒(méi)有就如何定義強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)、動(dòng)作和其他元素提出任何建議。

Roitblat 說(shuō)：“強(qiáng)化學(xué)習(xí)假設(shè)智能體具有一組有限的潛在動(dòng)作。已經(jīng)指定了獎(jiǎng)勵(lì)信號(hào)和價(jià)值函數(shù)。換句話(huà)說(shuō)，通用智能的問(wèn)題恰恰是提供強(qiáng)化學(xué)習(xí)作為先決條件的那些東西。因此，如果機(jī)器學(xué)習(xí)都可以簡(jiǎn)化為某種形式的優(yōu)化，以最大化某些評(píng)估措施，那么強(qiáng)化學(xué)習(xí)肯定是相關(guān)的，但它的解釋性并不強(qiáng)?！?

精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

DeepMind最新論文：強(qiáng)化學(xué)習(xí)“足以”達(dá)到通用人工智能

相關(guān)文章

人工智能企業(yè)

人工智能硬件

人工智能產(chǎn)業(yè)

人工智能技術(shù)