“后Sora”時代,AI視頻迎來“未來之戰(zhàn)”
2024-07-06 14:48:53AI云資訊498
衣著精致的女人行走在東京街頭,身著宇航服的宇航員正以堅毅的目光注視前方,頭頂黃色氣球的氣球人在跑跑跳跳……繼文本、圖像后,視頻行業(yè)也正在接受AI技術的重塑,不少人認為“AI視頻元年”已至。視頻為何會成為AI技術最后探索的領域?隨著Sora驗證算法可行性后,行業(yè)玩家們未來又將如何打出差異化、實現(xiàn)真正落地?
當我們談論AI視頻,我們在談論什么?
現(xiàn)階段,提及“AI視頻”,似乎包羅萬象——從文生視頻大模型Sora、Runway、快手可靈、萬興“天幕”,到虛擬人視頻HeyGen、萬興播爆、Synthesia,再到AI風格化視頻DemoAI等,甚至包括文字快剪等AI剪輯技術……一切與“AI+視頻”兩大元素相關的都可歸為這一概念,也讓行業(yè)對AI視頻的探討稍顯不聚焦。
事實上,細究以上所有AI視頻的分支,可以發(fā)現(xiàn)雖然都是AI技術加持下生成的視頻,但其背后的技術路徑卻大相徑庭。
以HeyGen、萬興播爆為代表的虛擬人視頻生成主要依靠虛擬人技術,涵蓋了面部識別處理、建模、渲染、驅動等技術過程,AI主要體現(xiàn)在驅動虛擬人形象層面,應用場景也主要集中于口播營銷、新聞播報等需要人物形象穩(wěn)定出鏡的類別;以DemoAI為代表的AI風格化視頻,則是通過將一段原始視頻拆解的每一幀原始圖像替換為AI風格化圖像,再最終合并成一段完整的AI視頻形態(tài)。
這兩種技術,都是“從有到有”“從視覺到視覺”,而實現(xiàn)“從無到有”的,則是文生視頻技術,或者說是難度指數(shù)級升級版本的文生圖技術。
文生視頻技術可簡要分為“Sora前”和“Sora后”。在Sora橫空出世之前,文生視頻一直受限于時長,被稱為“10秒以內的時代”,而Pika和Runway則是AI視頻領域呼聲最高的商業(yè)類應用。
在這個階段,文生視頻技術基本建立在AI繪畫的基礎操作之上,本質上是對圖像這一基礎單位更為復雜的控制生成,需要對圖像這一基礎單位建立向前和向后等更為復雜的時空邏輯關系,其視頻訓練的本質也是拆解到對關鍵幀圖像的理解,主要技術路徑依靠擴散模型。在很長一段時間內,文生視頻技術都以相對較慢的速度向前發(fā)展。
AI視頻為何受限于“10秒以內”?
相較語言大模型、文生圖技術在短時間內相繼迎來技術突破,并迎來市場爆火,文生視頻技術的進展顯得尤為緩慢??刂啤r間連貫性、長度是其中的主要問題。
控制,顧名思義,要求算法對視頻內所有物體以及發(fā)生的情節(jié)的絕對性控制,而控制背后的邏輯則是算法對不同物體之間物理關系的透徹理解。AIGC軟件A股上市公司萬興科技(300624.SZ)董事長吳太兵在采訪中指出,如果說文本大模型只需要理解人類,那么視頻大模型需要處理和還原視覺與聽覺等信息,相當于理解并構建一個接近真實的世界,這意味著指數(shù)級上升的數(shù)據(jù)和學習成本。
眾所周知,視頻里包含了大量的交互鏡頭,包括人與人、人與物體、物體與物體的交互。當一個人行走,他的手臂如何自然擺動、走的每一步中腳和地面之間是否處于相對靜止;又或者一個玻璃杯摔落,算法是否知道它會摔碎,如果摔碎那么每一個玻璃碎片又將按照怎樣的軌跡彈出;風吹過一片草地,每一根小草該如何隨風舞動……所有我們在日常生活中習以為常、視若無睹的極細微運動,均遵循著物理規(guī)律,而如此龐大的物理規(guī)律的堆疊,使得“控制”成為視頻生成領域最為困難的一個問題。
除對視頻內容的控制外,時間連貫性也同樣重要——如何讓角色、物體和背景在幀之間保持一致,而不會變形或扭曲,或者變換成另一個物體。如一個人在街邊走路,是否可以保證街邊景色的連貫,而正在走路的主人公,他的長相是否能夠保持一致……這是一個視頻是否可以實際使用的底線,但受限于技術的不可控性,往往很難達成。
此外,視頻長度同樣重要,且與時間連貫性密切相關。目前,許多公司限制旗下產品生成視頻的長度,究其原因,在于他們無法確保幾秒鐘后的畫面一致性。如果只能保證短時間內的連貫性,那么視頻將會面臨鏡頭過多、觀感差的問題,大大降低了文生視頻應用的可能性。
Sora為何成為文生視頻“紫微星”?
隨著今年初Sora的橫空出世,控制、時間連貫性、時長三大問題似乎都迎刃而解,大幅提升的生成質量讓不少人直呼文生視頻領域的“ChatGPT時刻”已經(jīng)到來。根據(jù)OpenAI公開的技術文檔顯示,Sora主要依靠三大“秘密武器”解決了以上矛盾。
首先是DiT(Diffusion Transformer)架構。DiT最早完整體現(xiàn)在華人學者謝賽寧教授的論文《Scalable Diffusion Models with Transformers》,后經(jīng)由OpenAI完整地工業(yè)化實現(xiàn)。簡單來講,DiT是將傳統(tǒng)的U-Net架構替換為Transformer架構,這樣做的理由和優(yōu)勢是:當數(shù)據(jù)集量級大時,Transformer相比于U-Net更具擴展性,更能促成龐大數(shù)據(jù)集所帶來的涌現(xiàn)能力發(fā)生。
此外,Transformer的自注意力機制還極有可能幫助Sora在視頻的時間連貫性上取得更好的表現(xiàn)。Sora可以將時間離散化,然后通過自注意力機制理解前后時間線的關系。而自注意力機制的原理就是每個時間點和其他所有時間點產生聯(lián)系,這是Diffusion Model所不具備的。
第二大“武器”,是Sora特有的視頻分解邏輯。對于沒有視覺能力、只會理解二進制的計算機來說,如何將包含三維視覺信息的視頻拆分成計算機能夠理解的格式,以進一步推進訓練,是文生視頻技術的一大難點。目前,包括Sora在內的大部分大模型都采用了把視頻編碼成一個一個離散的token的方式,而Sora在此基礎上,將視頻在三維空間中均分成一個一個小的token,被OpenAI稱為“時空補丁”(spacetime patches),更有利于最大化利用視頻數(shù)據(jù),完成OpenAI的“暴力美學”。
最后是強大的語言理解能力。在OpenAI文生圖模型DALLE3的加持下,Sora可以將許多沒有文本標注的視頻自動進行標注,并用于視頻生成的訓練。同時因為有GPT的加持,可以將用戶的輸入擴寫成更加詳細的描述,使得生成的視頻獲得更加貼合用戶的輸入,并且Transformer框架能幫助Sora模型更有效地學習和提取特征,獲取和理解大量的細節(jié)信息,增強模型對未見過數(shù)據(jù)的泛化能力。
Sora解決了部分問題,但這就夠了嗎?
Sora的三大“武器”推動了文生視頻“GPT時刻”的到來,也從一定程度上解決了以上種種困擾文生視頻領域一年多的問題,但行業(yè)的發(fā)展速度仍遠慢于2023年初大語言模型橫空出世之時。距離Sora官宣已近半年,但真正用到這一工具的用戶仍寥寥無幾,更有不少爭議甚囂塵上。距離文生視頻技術成為真正能夠代替生產力的工具,我們還有哪些懸而未決的問題?
首先,高質量的訓練數(shù)據(jù)從何而來?相較文本、圖像等數(shù)據(jù)形式,目前全球范圍內的高質量標記訓練視頻數(shù)據(jù)都處于緊缺狀態(tài)。雖然YouTube和TikTok等視頻平臺上不乏可公開訪問的視頻,但這些原始視頻沒有經(jīng)過標注,同時在內容種類上也不夠多樣化。
從現(xiàn)階段來看,與專業(yè)視頻工作室、制作公司,乃至于電視臺等機構達成合作,或許是高質量視頻數(shù)據(jù)獲取的最優(yōu)解,而國內顯然已有玩家開始探索這一合作模式。作為國內首個音視頻多媒體大模型,萬興“天幕”在發(fā)布之初,就已落戶馬欄山,并與中廣天擇達成大模型算料戰(zhàn)略合作,針對中國本土數(shù)據(jù)采集進行了前瞻性布局,并且已完成了百億本土化高質量音視頻數(shù)據(jù)沉淀,或可作為案例來借鑒。
其次,誰將負責工作流程?視頻創(chuàng)作并非單純的AI生成可滿足,而是需要動畫、字幕、音樂、特效等等資源層層結合加碼,也正因為音視頻制作鏈路的門檻和復雜性,注定了相關需求無法由單一模型“一氣呵成”。
當前,許多創(chuàng)作者常見的創(chuàng)作流程包括從ChatGPT等語言大模型上獲取創(chuàng)作靈感、腳本及提示詞,從Midjourney等圖像大模型上通過文字生成關鍵幀畫面,在Runway等視頻大模型上通過關鍵幀延伸創(chuàng)作出動畫視頻,在Suno等音頻大模型上生成配樂,再將所有素材導入傳統(tǒng)剪輯軟件進行后期剪輯并制作出成品。縱觀整個流程,創(chuàng)作者需輾轉多個平臺、切換不同軟件、多次導入文件,由此帶來了飆升的工作量。
而采取“車間模式”協(xié)同生產的音視頻大模型,或許可以為此問題提出一個可能的解決方向。吳太兵認為,大模型1.0時代生成方式以文本為主并輔以跨模態(tài),內容的可控性不高;2.0時代,垂直大模型增長趨勢明顯,好比“工匠”,可更快速、更靈活解決細分領域專業(yè)性問題,可對“原材料”進行組裝等加工,做成“半成品”乃至“成品”,其生成模式更多是多媒體融合的方式,可從模型到應用場景對用戶一條龍賦能。
基于此理念,萬興科技推出了萬興“天幕”,以音視頻生成式AI技術為基礎,聚焦數(shù)字創(chuàng)意垂直場景,由視頻大模型、音頻大模型、圖片大模型、語言大模型組成,并擁有超百個AI原子能力,讓用戶能夠“一站式”完成內容創(chuàng)作。
從2022年至今,短短不到兩年的時間內,世界見證了AI行業(yè)的飛速發(fā)展,也更加證實了未來的潛力。雖然偶有困難,但是AI視頻技術的明天無疑是光明的,它將繼續(xù)推動著我們向一個更加豐富、多元和互動的數(shù)字世界新時代邁進。
相關文章
- 雙AI+閃電對焦!EMEET PIXY如何重塑全球AI視頻創(chuàng)作生產力工具
- 深度整合通義萬相2.1 + ComfyUI,RunningHub打造零門檻AI視頻生產力平臺
- 中國移動AI視頻彩鈴首秀MWC巴塞羅那 開啟智媒出海新篇章
- 新壹科技:2024不斷締造AI視頻生產新動能
- 搶先OpenAI Sora谷歌新推Veo模型,亞馬遜/微美全息加入AI視頻生成競賽引關注
- OpenAI正式推出AI視頻生成模型Sora 可生成長達20秒的視頻
- Runway推出Gen-3 Alpha模型的新功能 為AI視頻提供了精確的攝像機控制
- MOKI升級AI腳本、AI分鏡、AI視頻生成功能,進一步增強成片效果
- 經(jīng)典非遺賦能AI視頻彩鈴 中國電信愛音樂“云上神州”第三季重磅上線
- 深圳博通“飛甲”——領先的AI視頻大數(shù)據(jù)安全解決方案亮相警安法務展
- 藍色光標Blue AI攜手快手可靈AI,共同引領AI視頻生成新時代
- AI視頻ChatGPT時刻到來,昆侖萬維發(fā)布全球首款AI短劇平臺
- AI視頻彩鈴點燃奧運互動激情,成全民高人氣助威搭子
- 量子位智庫發(fā)布《AI視頻生成研究報告》 OpenAI萬興科技Adobe美圖等入選代表企業(yè)
- 沙特EHG集團到訪美攝科技,以AI視頻技術描繪廣告營銷領域未來!
- 給大家推薦一個學AI視頻制作的直播課!
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術雙重進化,技嘉2025線下產品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球對話
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產業(yè)
更多>>- 打造張江人工智能創(chuàng)新小鎮(zhèn),全國首個人工智能創(chuàng)新應用先導區(qū)再添發(fā)展新引擎
- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
人工智能技術
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案