亚洲国产精品久久久久网站,成人国产精品一区二区视频

OpenAI圣誕季“十二連發(fā)”的第三個工作日，迎來了重頭戲——萬眾期待的OpenAI視頻生成模型Sora正式版發(fā)布！

OpenAI官方甚至直言：“Sora就是我給你們的假期禮物?！?

今年2月，Sora首次問世便以其卓越的表現(xiàn)震撼了科技屆。而此次OpenAI發(fā)布更高級的Sora Turbo，在生成視頻的速度和效果上，顯然更快、更強！

01 Sora的創(chuàng)新表現(xiàn)

整體來說，Sora展示的一系列功能，在視頻生成的質量、功能的獨創(chuàng)性、技術的復雜度等方面，超出了目前市場上已有的文生視頻產品。

OpenAI在直播中介紹，Sora支持從480p到1080p的全系列分辨率，單個視頻最長可達20秒。用戶可以通過文本描述（文生視頻）、圖片（圖生視頻）以及現(xiàn)有視頻（視頻生視頻）來生成視頻內容。

特別值得一提的是，Sora上線全新UI界面以及豐富的編輯工具，以便創(chuàng)造者對視頻進行修改、創(chuàng)建、擴展、循環(huán)、混合。

例如，Storyboard（故事板）允許用戶通過時間軸來控制視頻內容，添加分鏡頭，以及調整動作或畫面的持續(xù)時長。Re-cut（剪輯）是在故事板上對視頻進行修剪和延展，實現(xiàn)更精確的視頻編輯。Blend（混合）則是將兩個視頻內容進行過渡和融合，創(chuàng)造出新的視覺效果。

02 Sora的技術原理

OpenAI已經給我們展示了Sora的“全能進化”。這些獨特的創(chuàng)新功能極大地拓展了創(chuàng)作者的創(chuàng)作空間，讓視頻更接近創(chuàng)作者的自我表達、幫助他們完成一個理想的鏡頭故事。

如此強大的功能背后有哪些黑科技，Sora是怎么做到的？

Sora的設計靈感來源于大型語言模型（LLM），通過訓練互聯(lián)網規(guī)模數(shù)據(jù)來獲得通用能力。大語言模型使用文本標記，而Sora則使用之前已被證明是用于視覺數(shù)據(jù)模型的有效表示的視覺“碎片/補丁”（patches）來達到類似效果。

OpenAI首先通過對視頻進行時間和空間上的壓縮，將其壓縮到一個更低維的潛在空間（可將這個潛在空間看做是時空碎片的集合），然后將原視頻轉化為這些碎片/補丁（patches）。讓它們充當像轉換器中的標記符號一樣的角色，使Sora模型可以在不同分辨率、持續(xù)時間和寬高比的視頻和圖像數(shù)據(jù)集上進行訓練。

然后，Sora利用一種基于Transformer的模型，根據(jù)給定的文本提示和已經提取的空間時間補丁，開始生成最終的視頻內容。在這個過程中，模型會“涂改”初始的噪聲視頻，逐步去除無關信息，添加必要細節(jié)，最終生成與文本指令相匹配的視頻。

此外，訓練從文本到視頻的生成系統(tǒng)，還需要大量帶有對應文本字幕的視頻。為此，OpenAI借鑒了DALL-E 3中提出的re-captioning技術，將其應用到視頻上。首先訓練了一個高度描述性的字幕模型,之后用它為訓練數(shù)據(jù)集中的所有視頻生成文本字幕，以此來提高文本逼真度以及視頻的整體質量。

03 文生視頻模型背后的數(shù)據(jù)

總的來說，Sora模型憑借其強大的數(shù)據(jù)處理能力和深度學習能力，成功地將文字與視頻內容緊密地聯(lián)系在一起，為用戶帶來了前所未有的視頻生成體驗。這個模型就像是AI的“大腦”，里面存儲了海量的視頻和圖像信息。通過不斷學習這些數(shù)據(jù)，模型得以建立對現(xiàn)實世界中各類場景、情境、運動規(guī)律以及人類活動特征的深度理解和精準捕捉。

其中，高質量視頻訓練數(shù)據(jù)在提升輸入文字與生成內容匹配度方面扮演著至關重要的角色。不僅能夠提升模型的性能，還能夠為用戶提供更加真實、準確和連貫的視頻生成體驗。

標貝科技始終專注于為企業(yè)提供高質量的精標數(shù)據(jù)服務以及豐富的多模態(tài)數(shù)據(jù)資源。針對大模型數(shù)據(jù)需求，我們精心打磨了多模態(tài)大模型數(shù)據(jù)解決方案，覆蓋從數(shù)據(jù)采集、預處理、清洗、標注到質檢等系列工程化流程，積累了高質量的多模態(tài)大模型訓練數(shù)據(jù)集，為客戶打造優(yōu)質的服務體驗。

04 標貝科技多模態(tài)大模型訓練數(shù)據(jù)-視頻caption數(shù)據(jù)集

視頻caption數(shù)據(jù)樣例1：生活類