精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

商湯董事長(zhǎng)兼CEO徐立:人工智能的十年演進(jìn)

2025-07-29 11:47:28AI云資訊1628

從人工智能誕生之初,一個(gè)核心命題便貫穿始終:智能到底從哪里來(lái)?人類的智能起源于對(duì)世界的持續(xù)自主探索,在與物理空間的交互中沉淀并進(jìn)化;機(jī)器智能的進(jìn)化,依賴于人類積累的有限知識(shí),僅靠這些,似乎難以真正觸達(dá)并融入物理空間。隨著單一模態(tài)的進(jìn)化觸及邊界,AI的演進(jìn)路徑是什么?

商湯科技董事長(zhǎng)兼CEO徐立,在2025世界人工智能大會(huì)主論壇上發(fā)表主旨演講《人工智能的十年演進(jìn)》,以下為演講全文:

大家好,很高興有機(jī)會(huì)在這里分享一下我們關(guān)于人工智能演進(jìn)的一些思考。

題目是《人工智能的十年演進(jìn)》,原因在于過(guò)往的十年,是人工智能認(rèn)知變化最快的十年,而商湯科技也是成立十年,所以正好就談?wù)勥@十年。

智能躍遷:

從感知AI到生成式AI

谷歌搜索趨勢(shì)清晰顯示過(guò)往十來(lái)年人工智能熱度有數(shù)次躍升,這標(biāo)志著大眾認(rèn)知在這三個(gè)時(shí)間點(diǎn)發(fā)生了顯著變化。

最初是感知AI——2011到2012年深度學(xué)習(xí)在視覺(jué)領(lǐng)域興起,隨著CNN、ResNet 等算法迭代共同推動(dòng)了第一波認(rèn)知升級(jí)和產(chǎn)業(yè)落地。2017-2018 年,伴隨Transformer 及自然語(yǔ)言模型的發(fā)展,進(jìn)入了生成式AI的階段,帶動(dòng)行業(yè)發(fā)展并逐步重塑大眾認(rèn)知至當(dāng)前高峰,從GPT到智能體、多模態(tài)大模型,乃至到現(xiàn)在第三個(gè)熱點(diǎn)高峰旨在改變現(xiàn)實(shí)世界的具身AI與世界模型。

我們始終在思考一個(gè)核心問(wèn)題:在這幾個(gè)階段中,智能本身從何而來(lái)?算法迭代與生產(chǎn)力爆發(fā)(包括GPU 發(fā)展)固然重要,但還有一個(gè)本質(zhì)問(wèn)題在于:AI 和機(jī)器學(xué)習(xí),究竟學(xué)習(xí)的是什么?

感知AI時(shí)代,受益于互聯(lián)網(wǎng)上對(duì)現(xiàn)實(shí)世界的大量“拷貝”——圖片、視頻等數(shù)據(jù)已廣泛存在。因此,感知時(shí)代的智能主要來(lái)自人工標(biāo)注:AI是通過(guò)學(xué)習(xí)人工標(biāo)注獲得能力。大量標(biāo)注數(shù)據(jù)被用于訓(xùn)練一個(gè)個(gè)垂直領(lǐng)域模型,例如我們當(dāng)時(shí)推出的“商湯方舟”產(chǎn)品平臺(tái),便集成了一萬(wàn)多個(gè)感知模型,可以做很多不同垂直領(lǐng)域的識(shí)別任務(wù)。感知模型的能力源于學(xué)習(xí)特定數(shù)量級(jí)的標(biāo)注數(shù)據(jù)。以2012 年 Hinton 團(tuán)隊(duì)在 ImageNet 上的突破性成果為例(使用約 1400 萬(wàn)張圖片),若換算成一個(gè)人標(biāo)注,大約需要 10 年。這看似數(shù)據(jù)龐大,但僅憑單人 10 年的知識(shí),模型的泛化能力仍受局限。因此,彼時(shí) AI 的工具屬性明顯,局限于各垂直領(lǐng)域的感知任務(wù),也就是在很多垂直的方向上,我們需要做專屬的模型。

那么,生成式(或更通用的)人工智能有何不同?一個(gè)關(guān)鍵區(qū)別在于:現(xiàn)在說(shuō)得更通用的 AI 根植于自然語(yǔ)言?;ヂ?lián)網(wǎng)文本天然蘊(yùn)含知識(shí),無(wú)需后期標(biāo)注加工。雖然圖片、視頻數(shù)量遠(yuǎn)超文本,但可以認(rèn)為文本的知識(shí)密度更高。以GPT-3 處理 7500 億 token 為例,若由一個(gè)人創(chuàng)作這些文本,需耗時(shí)約十萬(wàn)年。可見(jiàn),從 10 年到 10 萬(wàn)年,數(shù)據(jù)量相差萬(wàn)倍。正是自然語(yǔ)言的高知識(shí)密度,促成了模型的強(qiáng)大泛化與通用能力,成為當(dāng)今通用AI 發(fā)展的關(guān)鍵基石。當(dāng)然,我們已意識(shí)到:此類數(shù)據(jù)或?qū)⒈幌拇M。圖片標(biāo)注依賴人工;而自然語(yǔ)言數(shù)據(jù)據(jù)預(yù)測(cè),可能在2027-2028 年耗盡——事實(shí)上是其產(chǎn)生速度遠(yuǎn)落后于算力增長(zhǎng)速度,造成模型數(shù)據(jù)需求的“倒掛”。能否從原始、無(wú)序的視頻圖像中挖掘更多知識(shí)?有可能,但這仍需更多更深入的工作。

我們選擇了一條自然路徑:融合視覺(jué)感知與語(yǔ)言能力,構(gòu)建原生多模態(tài)系統(tǒng)。具體而言,建立更自然的圖文關(guān)聯(lián),形成更長(zhǎng)的多模態(tài)思維鏈。借助這種思維鏈持續(xù)激發(fā)模型能力,智能是被激發(fā)出來(lái)的,難以在毫無(wú)基礎(chǔ)的環(huán)境中憑空產(chǎn)生。雖然如今模型亦有可進(jìn)行遞歸自學(xué)習(xí)推進(jìn),但本質(zhì)上,我們?nèi)孕铇?gòu)建一條系統(tǒng)化的基礎(chǔ)模型進(jìn)化路徑。當(dāng)我們加入大量圖文數(shù)據(jù)甚至高階多模態(tài)思維鏈時(shí),觀察到一個(gè)有趣現(xiàn)象,同一模型在音頻交互、多模態(tài)推理能力俱佳的同時(shí),其文本推理能力也大幅提升。這正得益于引入充足而豐富的多模態(tài)思維鏈。該現(xiàn)象表明:存在能將互聯(lián)網(wǎng)多模態(tài)數(shù)據(jù)中的知識(shí)提煉出來(lái),融入文本模型,從而提升文本模型對(duì)特定任務(wù),比如空間和物理世界的理解力;這樣的模型亦能更精準(zhǔn)地控制生成,甚至引導(dǎo)圖像與視頻的生成。

破局之道:

攻克主動(dòng)交互數(shù)據(jù)稀缺難題

然而,人類終將面臨一個(gè)根本性問(wèn)題:當(dāng)書本與互聯(lián)網(wǎng)知識(shí)窮盡時(shí),下一代的智能將從何處獲???第一階段靠標(biāo)注,第二階段靠語(yǔ)言,接下來(lái)呢?讓我們審視人類的學(xué)習(xí)方式:人類自誕生起,便通過(guò)與現(xiàn)實(shí)世界的不斷互動(dòng)探索獲得智能,而非始于語(yǔ)言或監(jiān)督的認(rèn)知學(xué)習(xí)。這種與世界的交互是智能增長(zhǎng)的重要源泉。這自然啟示我們:與現(xiàn)實(shí)世界互動(dòng)產(chǎn)生的大量數(shù)據(jù)可以帶來(lái)智能。

為何要大量的數(shù)據(jù)?因?yàn)樘剿餍枰采w多樣化的物理空間。當(dāng)前機(jī)器人及具身智能的潛在瓶頸,正在于對(duì)此類高質(zhì)量數(shù)據(jù)采集的巨大需求。有個(gè)有趣的工作,1963 年的“主動(dòng)貓與被動(dòng)貓”實(shí)驗(yàn)——兩只貓通過(guò)轉(zhuǎn)軸相連,一只可自由活動(dòng)、可以與現(xiàn)實(shí)世界互動(dòng),另一只不能動(dòng),僅被動(dòng)觀察相同視覺(jué)畫面,也就說(shuō)同樣的視覺(jué)輸入,那只會(huì)互動(dòng)的貓顯然成長(zhǎng)的速度會(huì)非常的快。這也是具身理念的來(lái)源,強(qiáng)調(diào)與現(xiàn)實(shí)世界的探索與交互至關(guān)重要。

但還會(huì)面臨問(wèn)題,機(jī)器實(shí)體真實(shí)地與復(fù)雜龐大的現(xiàn)實(shí)世界互動(dòng),探索空間極其廣闊,具身亦采用模擬平臺(tái),但也必然面臨“模擬到現(xiàn)實(shí)(Sim-to-Real)”的差距。那有沒(méi)有可能通過(guò)所謂的對(duì)于現(xiàn)實(shí)世界的理解來(lái)做理解生成統(tǒng)一的世界模型。是會(huì)有,但也會(huì)面臨挑戰(zhàn)。

例如,使用模型生成數(shù)據(jù)(目前主要用于自動(dòng)駕駛領(lǐng)域)效果顯著。但它可能違反物理規(guī)律, 例如出現(xiàn)車輛“幽靈穿越”十字路口或難以控制的隨機(jī)事故。此外,即便最優(yōu)的視頻生成模型,其響應(yīng)速度也通常較慢。若需實(shí)時(shí)交互,往往需要等待很久才有生成結(jié)果,甚至可能“抽卡”(意指隨機(jī)采樣)——生成內(nèi)容無(wú)法預(yù)知。

世界模型,推動(dòng)AI邁入真正與物理世界交互時(shí)代

那接下來(lái)怎么辦?需要強(qiáng)大的現(xiàn)實(shí)世界理解模型+ 深度 3D 理解模型來(lái)協(xié)同提升該能力。

那么,我們推出自己的“開(kāi)悟”世界模型,由日日新V6.5賦能?!伴_(kāi)悟”世界模型也是視頻生成模型,但它考慮了時(shí)間、空間的一致性。

我們舉個(gè)簡(jiǎn)單的例子。自動(dòng)駕駛需采集大量復(fù)雜視角(如七路攝像頭typo數(shù)據(jù))。而我們模型能僅憑自然語(yǔ)言描述,即可生成右側(cè)逼真的七路攝像頭視角模擬數(shù)據(jù)。

我們看下細(xì)節(jié),首先,車輛運(yùn)動(dòng)時(shí),其在各鏡頭中的位置變化精準(zhǔn)同步, 時(shí)間一致性也可以得到保障:車輛無(wú)論遠(yuǎn)近,各攝像頭捕捉到的不同時(shí)刻影像中細(xì)節(jié)(如車牌)均保持一致。倘若視頻引擎對(duì)于物理世界的規(guī)律沒(méi)有足夠理解,方向盤轉(zhuǎn)動(dòng)可能導(dǎo)致視野突變(例如路旁樹(shù)木位置錯(cuò)亂),就無(wú)法保障時(shí)空可控性。

我們來(lái)看生成自動(dòng)駕駛里的一個(gè)“長(zhǎng)尾場(chǎng)景”——汽車加塞兒(Cut-in),在駕駛里普遍,對(duì)于人類駕駛來(lái)講也是個(gè)難題,新手畏難,老手則冒風(fēng)險(xiǎn)。自動(dòng)駕駛系統(tǒng)必須學(xué)習(xí)應(yīng)對(duì):太保守則影響通行效率,太激進(jìn)易引發(fā)碰撞。以兩輛自動(dòng)駕駛車輛為例,兩車試圖加塞卻相互牽制,陷入博弈循環(huán)。而真實(shí)路況中大量采集此類高危險(xiǎn)性加塞數(shù)據(jù)極為困難且占比低。

“開(kāi)悟”世界模型能生成七路攝像頭視角的加塞視頻嗎?當(dāng)然可以。

「開(kāi)悟」世界模型生成的多視角視頻

如圖中描述大型車輛的加塞方向、時(shí)間、角度,模型生成的視頻確保了時(shí)空一致性,尤其可貴的是能穩(wěn)定生成大量、多樣化且可控的場(chǎng)景——可調(diào)節(jié)光照(白天、黑夜)、天氣(晴、陰、雨)、道路結(jié)構(gòu)(直道、彎道、甚至 F1 賽道)、車流密度、車速以及車型(小到大)等變量。


晴天

陰天

雨天


彎道

直道


路口


慢速(15km/h以下)

車速

中速(15-60km/h)


快速(60km/h以上)


白天

可照光線

傍晚


凌晨


公交車

車型

大型貨車


小型貨車

這意味著,基于可控生成的視頻,我們開(kāi)啟了AI通過(guò)模擬進(jìn)行真實(shí)世界探索的可能性。早期做自動(dòng)駕駛時(shí),我們?cè)_(kāi)發(fā)模擬器(類似機(jī)器人強(qiáng)化學(xué)習(xí)平臺(tái))用于模擬演練后投入現(xiàn)實(shí),但存在 Sim-to-Real Gap。

現(xiàn)在,隨著基模型能力增強(qiáng)、對(duì)世界理解加深,理解與生成的統(tǒng)一開(kāi)創(chuàng)了新的交互可能性。

這是個(gè)特殊的例子,輸入為方向盤、剎車和油門來(lái)控制這個(gè)視頻的生成,卻驅(qū)動(dòng)生成逼真的七攝像頭視角駕駛模擬。

用戶仿佛在真實(shí)的街道場(chǎng)景中玩“極品飛車”——手握方向盤控制方向,環(huán)境光照與車輛條件多變,每個(gè)攝像頭有不同的視角,各視角圖像一致統(tǒng)一。這一功能將為眾多行業(yè)賦能,對(duì)真實(shí)世界的探索有更大的可能性。能否用部分?jǐn)?shù)據(jù)生成更多數(shù)據(jù),甚至實(shí)現(xiàn)一定程度的AI Self Learning,是極其值得探索的課題。

“舉一反千”,今天我們正式推出開(kāi)悟世界模型產(chǎn)品平臺(tái)?,F(xiàn)在,任何人都可以通過(guò)自然語(yǔ)言描述場(chǎng)景,生成符合3D 物理規(guī)則的、特定視角的視頻片段。我們要求的不是視頻的質(zhì)量達(dá)到電影級(jí)別,而是它符合物理的規(guī)則、物理的定律,并且能夠真正意義切進(jìn)用戶的使用場(chǎng)景,讓你在真實(shí)的世界中開(kāi)上極品飛車。而這部分能力,完全可以擴(kuò)展到機(jī)器人的學(xué)習(xí)和應(yīng)用中,非常值得期待。

我們也期待和大家一起經(jīng)歷AI發(fā)展的三個(gè)變化,感知世界,進(jìn)而更好地理解世界生成世界,最后與現(xiàn)實(shí)的硬件交互來(lái)改變我們的世界。

謝謝!

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛(ài)云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews