精品国产18久久久久久,一个人在线观看的www,亚洲一区二区久久久,成人国内精品久久久久影院vr,最近免费中文字幕大全高清大全1

超級文生視頻模型Sora正式來了!多模態(tài)訓練數(shù)據(jù)是關鍵

2024-12-17 15:08:00AI云資訊10907

OpenAI圣誕季“十二連發(fā)”的第三個工作日,迎來了重頭戲——萬眾期待的OpenAI視頻生成模型Sora正式版發(fā)布!

OpenAI官方甚至直言 :“Sora就是我給你們的假期禮物?!?

今年2月,Sora首次問世便以其卓越的表現(xiàn)震撼了科技屆。而此次OpenAI發(fā)布更高級的Sora Turbo,在生成視頻的速度和效果上,顯然更快、更強!

01 Sora的創(chuàng)新表現(xiàn)

整體來說,Sora展示的一系列功能,在視頻生成的質量、功能的獨創(chuàng)性、技術的復雜度等方面,超出了目前市場上已有的文生視頻產品。

OpenAI在直播中介紹,Sora支持從480p到1080p的全系列分辨率,單個視頻最長可達20秒。用戶可以通過文本描述(文生視頻)、圖片(圖生視頻)以及現(xiàn)有視頻(視頻生視頻)來生成視頻內容。

特別值得一提的是,Sora上線全新UI界面以及豐富的編輯工具,以便創(chuàng)造者對視頻進行修改、創(chuàng)建、擴展、循環(huán)、混合。

例如,Storyboard(故事板)允許用戶通過時間軸來控制視頻內容,添加分鏡頭,以及調整動作或畫面的持續(xù)時長。Re-cut(剪輯)是在故事板上對視頻進行修剪和延展,實現(xiàn)更精確的視頻編輯。Blend(混合)則是將兩個視頻內容進行過渡和融合,創(chuàng)造出新的視覺效果。

02 Sora的技術原理

OpenAI已經給我們展示了Sora的“全能進化”。這些獨特的創(chuàng)新功能極大地拓展了創(chuàng)作者的創(chuàng)作空間,讓視頻更接近創(chuàng)作者的自我表達、幫助他們完成一個理想的鏡頭故事。

如此強大的功能背后有哪些黑科技,Sora是怎么做到的?

Sora的設計靈感來源于大型語言模型(LLM),通過訓練互聯(lián)網規(guī)模數(shù)據(jù)來獲得通用能力。大語言模型使用文本標記,而Sora則使用之前已被證明是用于視覺數(shù)據(jù)模型的有效表示的視覺“碎片/補丁”(patches)來達到類似效果。

OpenAI首先通過對視頻進行時間和空間上的壓縮,將其壓縮到一個更低維的潛在空間(可將這個潛在空間看做是時空碎片的集合),然后將原視頻轉化為這些碎片/補丁(patches)。讓它們充當像轉換器中的標記符號一樣的角色,使Sora模型可以在不同分辨率、持續(xù)時間和寬高比的視頻和圖像數(shù)據(jù)集上進行訓練。

然后,Sora利用一種基于Transformer的模型,根據(jù)給定的文本提示和已經提取的空間時間補丁,開始生成最終的視頻內容。在這個過程中,模型會“涂改”初始的噪聲視頻,逐步去除無關信息,添加必要細節(jié),最終生成與文本指令相匹配的視頻。

此外,訓練從文本到視頻的生成系統(tǒng),還需要大量帶有對應文本字幕的視頻。為此,OpenAI借鑒了DALL-E 3中提出的re-captioning技術,將其應用到視頻上。首先訓練了一個高度描述性的字幕模型,之后用它為訓練數(shù)據(jù)集中的所有視頻生成文本字幕,以此來提高文本逼真度以及視頻的整體質量。

03 文生視頻模型背后的數(shù)據(jù)

總的來說,Sora模型憑借其強大的數(shù)據(jù)處理能力和深度學習能力,成功地將文字與視頻內容緊密地聯(lián)系在一起,為用戶帶來了前所未有的視頻生成體驗。這個模型就像是AI的“大腦”,里面存儲了海量的視頻和圖像信息。通過不斷學習這些數(shù)據(jù),模型得以建立對現(xiàn)實世界中各類場景、情境、運動規(guī)律以及人類活動特征的深度理解和精準捕捉。

其中,高質量視頻訓練數(shù)據(jù)在提升輸入文字與生成內容匹配度方面扮演著至關重要的角色。不僅能夠提升模型的性能,還能夠為用戶提供更加真實、準確和連貫的視頻生成體驗。

標貝科技始終專注于為企業(yè)提供高質量的精標數(shù)據(jù)服務以及豐富的多模態(tài)數(shù)據(jù)資源。針對大模型數(shù)據(jù)需求,我們精心打磨了多模態(tài)大模型數(shù)據(jù)解決方案,覆蓋從數(shù)據(jù)采集、預處理、清洗、標注到質檢等系列工程化流程,積累了高質量的多模態(tài)大模型訓練數(shù)據(jù)集,為客戶打造優(yōu)質的服務體驗。

04 標貝科技多模態(tài)大模型訓練數(shù)據(jù)-視頻caption數(shù)據(jù)集

視頻caption數(shù)據(jù)樣例1:生活類

視頻caption數(shù)據(jù)樣例2:運動類

視頻caption數(shù)據(jù)樣例3:動物類

視頻caption數(shù)據(jù)樣例4:其他

歡迎聯(lián)系我們了解多模態(tài)大模型訓練數(shù)據(jù)集更多詳情!

相關文章

人工智能企業(yè)

更多>>

人工智能硬件

更多>>

人工智能產業(yè)

更多>>

人工智能技術

更多>>
AI云資訊(愛云資訊)立足人工智能科技,打造有深度、有前瞻、有影響力的泛科技媒體平臺。
合作QQ:1211461360微信號:icloudnews