精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

大模型2.0時(shí)代:爆火的Sora,改變了什么?

2024-03-12 17:24:28AI云資訊856

年初,OpenAI發(fā)布名為“Sora”的視頻大模型,引爆全球。

與去年ChatGPT爆火帶來的文本生成相同,今年Sora的出現(xiàn),讓全球再次看到了AIGC的巨大威力。從1月底的萬興“天幕”大模型再到Sora,大模型正在從圖文1.0時(shí)代,加速進(jìn)入到以音視頻多媒體為載體的2.0時(shí)代。

Sora的強(qiáng)勢表現(xiàn),掀起了行業(yè)熱議。這廂谷歌用自家AI新品“打假”Sora,那邊特斯拉CEO馬斯克則直接表示人類愿賭服輸(gg humans),更有不少專業(yè)人士直接對(duì)Sora的技術(shù)報(bào)告“開挖”。

眾說紛紜下,不可否認(rèn)的是,Sora確實(shí)帶來了視頻生成的全新可能性與震撼感。業(yè)界不乏有人用“史詩級(jí)”、“現(xiàn)實(shí)不存在了”等來形容Sora的“炸裂”,并總結(jié)出以下五大提升之處:

1.一鍵生成60秒視頻:只需一段文本,Sora就可以生成長達(dá)60秒的視頻。

2.復(fù)雜場景和角色生成能力:Sora生成的視頻在內(nèi)容豐富度、質(zhì)量精美度、鏡頭多樣度等方面有質(zhì)的飛躍。

3.多鏡頭生成能力:Sora可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,同時(shí)保持角色和視覺風(fēng)格的一致性。

4.三維空間的連貫性和物體持久性Sora能夠生成具有動(dòng)態(tài)相機(jī)運(yùn)動(dòng)的視頻。在相機(jī)移動(dòng)和旋轉(zhuǎn)時(shí),Sora能夠保持人物和場景元素的連貫運(yùn)動(dòng),并確保在整個(gè)視頻中物體的外觀一致。

5.與世界的互動(dòng):Sora有時(shí)能模擬出簡單的物理行為。例如,畫家在畫布上留下筆觸,或者某人吃漢堡留下咬痕。

“炸裂”表現(xiàn)只是表象,透過OpenAI發(fā)布的技術(shù)報(bào)告,以下三大特點(diǎn)或許是Sora出圈的關(guān)鍵:

大力出奇跡

眾所周知,去年引發(fā)第一波AI浪潮的ChatGPT,是OpenAI“大力出奇跡”的范式。大量數(shù)據(jù)的訓(xùn)練會(huì)讓大模型產(chǎn)生“涌現(xiàn)”的能力,這讓ChatGPT能夠擁有更好的語言表達(dá)能力以及邏輯能力。

這次Sora顯然是另一個(gè)“大力出奇跡”的范本。據(jù)相關(guān)人士推測,此次Sora的訓(xùn)練參數(shù)量約30億。這個(gè)數(shù)字看似與GPT-4的1.8萬億相差甚遠(yuǎn),但對(duì)于視頻類模型訓(xùn)練來說,Sora已經(jīng)是名副其實(shí)的“大”模型。

相比起“隨處可得”的文本數(shù)據(jù),原始視頻的數(shù)據(jù)量就已“輸在起跑線上”,更不用說在Sora之前,大部分模型都需要將原始視頻進(jìn)行統(tǒng)一格式的裁剪,以便于訓(xùn)練。

視頻數(shù)據(jù)有各種各樣的形式,有橫屏的,有豎屏的,有4k高清的電影,也有64*64的馬賽克圖片。統(tǒng)一格式,意味著很多非目標(biāo)格式的視頻,都會(huì)面臨大多數(shù)畫面被浪費(fèi)的窘境。

為了解決各類視頻分辨率、格式不一,難以統(tǒng)一進(jìn)行學(xué)習(xí)的問題,OpenAI設(shè)計(jì)了一種叫做“spacetime patches”的分解方式,將視頻分解成統(tǒng)一格式的小模塊,以最大化利用所有視頻數(shù)據(jù)。

Spacetime patches究竟是什么呢?我們可以從patch入手來理解。

Patch可以理解為一張圖片的其中一小塊截圖。假設(shè)現(xiàn)在有一張9×9分辨率的圖片,設(shè)定每一個(gè)patch是一個(gè)3×3分辨率的小碎片,那么這張圖片就可以被分割成為9個(gè)patches,他們各自相鄰,組合在一起就能夠復(fù)原出一張完整的圖片。

而spacetime patches,則是將一個(gè)視頻按照這個(gè)原理進(jìn)行分割。眾所周知,視頻本質(zhì)上是隨時(shí)間變化的一系列圖像(也就是幀)。如果將視頻中每一幀都看做一頁A4紙,那么隨著時(shí)間軸的不斷推進(jìn),可以分解出很多很多頁“紙”。將這些“紙”按照順序摞在一起,這摞“紙”就有了一定的高度,而這個(gè)“高度”實(shí)際上就是時(shí)間軸。

現(xiàn)在,如果想要將視頻也分解成一個(gè)個(gè)patch,其實(shí)類似于直接將這摞“紙”按照一定規(guī)格大小切開——我們就得到了一小摞一小摞的“紙”。每一小摞“紙”的“高度”依舊是視頻的時(shí)間軸,而每一頁則是每一幀畫面中的一小部分。

由此,這些小紙堆既包含了每一幀畫面中的一部分信息,還包含了這個(gè)固定位置的畫面如何隨著時(shí)間流逝而產(chǎn)生變化的信息。這就是spacetime patches,它們代表了視頻數(shù)據(jù)的兩個(gè)最重要的維度——空間和時(shí)間。

通過采用spacetime patches的模式來對(duì)視頻進(jìn)行最大程度的分解與訓(xùn)練,Sora為行業(yè)提供了一個(gè)將視頻數(shù)據(jù)“物盡其用”的方法,對(duì)于數(shù)據(jù)需求量巨大的視頻生成行業(yè)來說,這顯然是個(gè)好消息。

現(xiàn)在,萬事俱備,只待訓(xùn)練了。

集眾家之“大成”

剛才介紹了OpenAI如何把完整的一個(gè)視頻,遵循一定邏輯轉(zhuǎn)化成能夠投入訓(xùn)練的“原材料”。那么,原料已備齊,這次的“廚師”又有什么過人之處呢?

與市面上大部分視頻生成類大模型不同,Sora采用了一個(gè)比較特別的“廚師”——Diffusion Transformer(DiT)模型。

DiT結(jié)合了Diffusion(擴(kuò)散模型)和Transformer兩大目前AI行業(yè)最火模型的原理結(jié)構(gòu),集兩者之大成,真正讓Sora生成的視頻能夠流暢。

其中,Diffusion是目前市面上最主流的圖片生成模型,通過對(duì)輸入的圖片打上噪點(diǎn)(可以理解為一種馬賽克),再根據(jù)全是噪點(diǎn)的圖片來反推原圖,來學(xué)習(xí)圖片生成。

Diffusion在生成單張圖片時(shí)效果還是很不錯(cuò)的。但問題在于,對(duì)于視頻生成領(lǐng)域來說,算法需要生成連續(xù)數(shù)幀圖像、保障每一幀圖像都能夠與前后幀絲滑地連續(xù)變化,同時(shí)整體的變化過程還需要符合邏輯。

如果單純使用Diffusion來生成視頻,那么隨著視頻時(shí)間變長,算法無法保障當(dāng)前畫面和5秒、10秒以后的畫面是否還能夠符合變化邏輯。

為了解決這一問題,OpenAI引入了Transformer來增強(qiáng)算法對(duì)于生成內(nèi)容的整體掌控能力。

作為GPT系列的底層模型,Transformer在提升內(nèi)容整體的完整度上有自己的獨(dú)門絕技——那就是它的自注意力機(jī)制。自注意力機(jī)制能夠讓大模型在訓(xùn)練的時(shí)候,不僅學(xué)習(xí)當(dāng)下這個(gè)單詞的編碼,更能夠同時(shí)學(xué)習(xí)到這個(gè)單詞周圍的其他單詞、它們之間是什么關(guān)系。

在NLP里,自注意力機(jī)制能夠讓GPT學(xué)會(huì)每一個(gè)單詞和周圍單詞之間的關(guān)系、更深層次地理解了一個(gè)句子的構(gòu)成邏輯。

放在視頻生成中,Transformer的自注意力機(jī)制則能夠幫助機(jī)器學(xué)習(xí)到每一個(gè)patch之間的關(guān)系——不論是空間上的,還是時(shí)間上的關(guān)系。正如GPT理解了句子的構(gòu)成邏輯一樣,Sora也理解了一個(gè)畫面隨著時(shí)間流逝而變化的邏輯。

由此,一個(gè)能夠讓生成的視頻內(nèi)容更穩(wěn)定、更符合現(xiàn)實(shí)邏輯的視頻生成算法就煉成了,而DiT在Sora中的優(yōu)越表現(xiàn),也為行業(yè)帶來了“另辟蹊徑”的解題思路。

讓大模型更能“聽得懂話”

除了圖像/視頻的數(shù)據(jù)處理與訓(xùn)練,語言理解仍然是用戶與大模型交互的最主要途徑。這意味著,Sora不僅需要會(huì)生成視頻,還需要會(huì)根據(jù)文字指令來生成符合要求的視頻。

OpenAI又是怎么讓Sora能夠更好理解文字指令的呢?

OpenAI采用了此前已在DALL·E 3中使用的re-captioning技術(shù),通過訓(xùn)練一個(gè)用于詳細(xì)描述視頻內(nèi)容的文本模型,來對(duì)所有投入訓(xùn)練的視頻素材進(jìn)行詳細(xì)的文字描述。

這個(gè)專門的文本模型會(huì)對(duì)包括視頻的主要內(nèi)容、角色運(yùn)動(dòng)、鏡頭運(yùn)動(dòng)、環(huán)境、背景、細(xì)節(jié)、風(fēng)格等等內(nèi)容進(jìn)行總結(jié)。通過模板化的方式進(jìn)行系統(tǒng)的描述,Sora可以清晰地了解到每段視頻的具體內(nèi)容。

這部分文本描述內(nèi)容可以在最終訓(xùn)練的時(shí)候與前面提到的時(shí)空?qǐng)D像塊進(jìn)行匹配和訓(xùn)練。最終,AI就可以理解和對(duì)應(yīng)上文本描述與視頻時(shí)空?qǐng)D像塊。

此外,OpenAI還使用了GPT,把用戶的簡短提示詞轉(zhuǎn)化成詳盡的說明,生成更便于Sora理解的prompt。也就是說,用戶的簡單的描述會(huì)被轉(zhuǎn)化為與訓(xùn)練時(shí)類似的詳細(xì)描述語句。這有助于Sora準(zhǔn)確理解用戶的需求。

視頻行業(yè)新春天

Sora的橫空出世,顯然將會(huì)給視頻領(lǐng)域帶來諸多變化,也將為所有做視頻模型的企業(yè)指出優(yōu)化路徑,加速提升大模型在視頻創(chuàng)作和視頻創(chuàng)意生成方面的賦能能力,并擴(kuò)展“音視頻+大模型”的應(yīng)用空間。

正如AIGC軟件A股上市公司萬興科技(300624.SZ)董事長吳太兵此前指出的,大模型正從圖文1.0時(shí)代,加速進(jìn)入到以音視頻多媒體為載體的2.0時(shí)代,從模型到應(yīng)用場景對(duì)用戶一條龍賦能,將成為主流發(fā)展趨勢。

當(dāng)前,包括萬興科技在內(nèi)的公司,都在積極布局大模型。年初,萬興科技推出萬興“天幕”音視頻大模型,聚焦數(shù)字創(chuàng)意垂類創(chuàng)作場景,基于15億用戶行為及100億本土化高質(zhì)量音視頻數(shù)據(jù)沉淀,以音視頻生成式AI技術(shù)為基礎(chǔ),全鏈條賦能全球創(chuàng)作者,致力于讓大模型應(yīng)用落地更有針對(duì)性、更具實(shí)效。

目前,萬興“天幕”眾多能力已在萬興科技旗下創(chuàng)意軟件產(chǎn)品中規(guī)?;逃?。其中,視頻創(chuàng)意產(chǎn)品Wondershare Filmora 13、一站式出海視頻營銷神器萬興播爆均已實(shí)現(xiàn)大模型能力的落地應(yīng)用。

依托萬興“天幕”大模型能力,萬興科技正加速重塑“創(chuàng)意軟件”,推動(dòng)旗下產(chǎn)品全面智能化,不斷降低大模型使用門檻,讓大模型更好地賦能全球新生代創(chuàng)作者。

相關(guān)文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產(chǎn)業(yè)

更多>>

人工智能技術(shù)

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺(tái)。
合作QQ:1211461360微信號(hào):icloudnews