超級文生視頻模型Sora正式來了!多模態(tài)訓練數(shù)據(jù)是關鍵
2024-12-17 15:08:00AI云資訊10907
OpenAI圣誕季“十二連發(fā)”的第三個工作日,迎來了重頭戲——萬眾期待的OpenAI視頻生成模型Sora正式版發(fā)布!
OpenAI官方甚至直言 :“Sora就是我給你們的假期禮物?!?
今年2月,Sora首次問世便以其卓越的表現(xiàn)震撼了科技屆。而此次OpenAI發(fā)布更高級的Sora Turbo,在生成視頻的速度和效果上,顯然更快、更強!
01 Sora的創(chuàng)新表現(xiàn)
整體來說,Sora展示的一系列功能,在視頻生成的質量、功能的獨創(chuàng)性、技術的復雜度等方面,超出了目前市場上已有的文生視頻產品。
OpenAI在直播中介紹,Sora支持從480p到1080p的全系列分辨率,單個視頻最長可達20秒。用戶可以通過文本描述(文生視頻)、圖片(圖生視頻)以及現(xiàn)有視頻(視頻生視頻)來生成視頻內容。
特別值得一提的是,Sora上線全新UI界面以及豐富的編輯工具,以便創(chuàng)造者對視頻進行修改、創(chuàng)建、擴展、循環(huán)、混合。
例如,Storyboard(故事板)允許用戶通過時間軸來控制視頻內容,添加分鏡頭,以及調整動作或畫面的持續(xù)時長。Re-cut(剪輯)是在故事板上對視頻進行修剪和延展,實現(xiàn)更精確的視頻編輯。Blend(混合)則是將兩個視頻內容進行過渡和融合,創(chuàng)造出新的視覺效果。
02 Sora的技術原理
OpenAI已經給我們展示了Sora的“全能進化”。這些獨特的創(chuàng)新功能極大地拓展了創(chuàng)作者的創(chuàng)作空間,讓視頻更接近創(chuàng)作者的自我表達、幫助他們完成一個理想的鏡頭故事。
如此強大的功能背后有哪些黑科技,Sora是怎么做到的?
Sora的設計靈感來源于大型語言模型(LLM),通過訓練互聯(lián)網規(guī)模數(shù)據(jù)來獲得通用能力。大語言模型使用文本標記,而Sora則使用之前已被證明是用于視覺數(shù)據(jù)模型的有效表示的視覺“碎片/補丁”(patches)來達到類似效果。
OpenAI首先通過對視頻進行時間和空間上的壓縮,將其壓縮到一個更低維的潛在空間(可將這個潛在空間看做是時空碎片的集合),然后將原視頻轉化為這些碎片/補丁(patches)。讓它們充當像轉換器中的標記符號一樣的角色,使Sora模型可以在不同分辨率、持續(xù)時間和寬高比的視頻和圖像數(shù)據(jù)集上進行訓練。
然后,Sora利用一種基于Transformer的模型,根據(jù)給定的文本提示和已經提取的空間時間補丁,開始生成最終的視頻內容。在這個過程中,模型會“涂改”初始的噪聲視頻,逐步去除無關信息,添加必要細節(jié),最終生成與文本指令相匹配的視頻。
此外,訓練從文本到視頻的生成系統(tǒng),還需要大量帶有對應文本字幕的視頻。為此,OpenAI借鑒了DALL-E 3中提出的re-captioning技術,將其應用到視頻上。首先訓練了一個高度描述性的字幕模型,之后用它為訓練數(shù)據(jù)集中的所有視頻生成文本字幕,以此來提高文本逼真度以及視頻的整體質量。
03 文生視頻模型背后的數(shù)據(jù)
總的來說,Sora模型憑借其強大的數(shù)據(jù)處理能力和深度學習能力,成功地將文字與視頻內容緊密地聯(lián)系在一起,為用戶帶來了前所未有的視頻生成體驗。這個模型就像是AI的“大腦”,里面存儲了海量的視頻和圖像信息。通過不斷學習這些數(shù)據(jù),模型得以建立對現(xiàn)實世界中各類場景、情境、運動規(guī)律以及人類活動特征的深度理解和精準捕捉。
其中,高質量視頻訓練數(shù)據(jù)在提升輸入文字與生成內容匹配度方面扮演著至關重要的角色。不僅能夠提升模型的性能,還能夠為用戶提供更加真實、準確和連貫的視頻生成體驗。
標貝科技始終專注于為企業(yè)提供高質量的精標數(shù)據(jù)服務以及豐富的多模態(tài)數(shù)據(jù)資源。針對大模型數(shù)據(jù)需求,我們精心打磨了多模態(tài)大模型數(shù)據(jù)解決方案,覆蓋從數(shù)據(jù)采集、預處理、清洗、標注到質檢等系列工程化流程,積累了高質量的多模態(tài)大模型訓練數(shù)據(jù)集,為客戶打造優(yōu)質的服務體驗。
04 標貝科技多模態(tài)大模型訓練數(shù)據(jù)-視頻caption數(shù)據(jù)集
視頻caption數(shù)據(jù)樣例1:生活類
視頻caption數(shù)據(jù)樣例2:運動類
視頻caption數(shù)據(jù)樣例3:動物類
視頻caption數(shù)據(jù)樣例4:其他
歡迎聯(lián)系我們了解多模態(tài)大模型訓練數(shù)據(jù)集更多詳情!
相關文章
- 超級文生視頻模型Sora正式來了!多模態(tài)訓練數(shù)據(jù)是關鍵
- 搶先OpenAI Sora谷歌新推Veo模型,亞馬遜/微美全息加入AI視頻生成競賽引關注
- OpenAI正式推出AI視頻生成模型Sora 可生成長達20秒的視頻
- OpenAI啟動為期12天shipmas活動,期間將上線Sora和新的推理模型
- “后Sora”時代,AI視頻迎來“未來之戰(zhàn)”
- 快手發(fā)布對標Sora的視頻生成大模型「可靈」 已開放邀測體驗
- 人大系多模態(tài)模型邁向AGI:首次實現(xiàn)自主更新,還在寫真視頻生成上好于Sora
- SORA大火后的思考:數(shù)智時代下的教育與人才培養(yǎng)模式革新
- 多部AI生成影片發(fā)布 Sora Pika萬興科技等助力文生視頻加速發(fā)展
- Sora接棒ChatGPT成AI領域焦點,蘋果/微美全息迎變革機遇共謀AIGC新篇章
- 大模型2.0時代:爆火的Sora,改變了什么?
- Sora時代,我們該如何關注新應用?一切盡在中國AIGC產業(yè)峰會
- 大模型2.0時代來臨:Sora引爆文生視頻 萬興“天幕”深入場景化落地
- Sora來了,如何應對人工智能背后的網絡安全威脅?
- Sora帶火AI視頻生成概念 國產大模型中誰更具稀缺價值?
- 微盟集團:Sora重塑短視頻營銷 微盟WAI將發(fā)力生成視頻商業(yè)化應用
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術雙重進化,技嘉2025線下產品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球對話
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉型“最優(yōu)解”
- 腦神經成像提速數(shù)倍、AI練就“遺忘術”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案