昆侖萬維開源中國首個面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1,重塑AI短劇行業(yè)格局
2025-02-18 15:13:46AI云資訊3951
2月18日,昆侖萬維開源中國首個面向AI短劇創(chuàng)作的視頻生成模型SkyReels-V1、中國首個SOTA級別基于視頻基座模型的表情動作可控算法SkyReels-A1。
開源地址:
1、SkyReels-V1:https://github.com/SkyworkAI/SkyReels-V1
2、SkyReels-A1:https://github.com/SkyworkAI/SkyReels-A1
3、技術(shù)報告:https://skyworkai.github.io/skyreels-a1.github.io/report.pdf
4、SkyReels官方地址:skyreels.ai
1. SkyReels-V1:Human-Centric Video Foundation Model,中國首個面向AI短劇創(chuàng)作的開源視頻生成模型
SkyReels-V1可實現(xiàn)影視級人物微表情表演生成,支持33種細膩人物表情與400+種自然動作組合,高度還原真人情感表達。正如以下視頻所示,SkyReels-V1支持生成大笑、怒吼、驚訝、哭泣等微表情,展現(xiàn)出人物情感豐沛的表演細節(jié)。即使有大幅度肢體動作,SkyReels-V1生成的微表情也完美貼合人物肢體表演。
同時,SkyReels-V1為AI視頻生成帶來了電影級光影美學,基于好萊塢級的高質(zhì)量影視數(shù)據(jù)訓練,當前SkyReels生成的每一幀畫面,在構(gòu)圖、演員站位、相機角度等都具備電影級的質(zhì)感。無論是單人鏡頭表演細節(jié),還是多人構(gòu)圖,當前已具備精準的表情控制和高質(zhì)感畫面。
更重要的是,SkyReels-V1不僅支持文生視頻、還能支持圖生視頻,是開源視頻生成模型中參數(shù)最大的支持圖生視頻的模型,在同等分辨率下各項指標實現(xiàn)開源SOTA。
圖1丨SkyReels-V1文生視頻指標對比(來源:昆侖萬維SkyReels)
能夠?qū)崿F(xiàn)這樣的SOTA級別,不僅依賴于昆侖萬維SkyReels團隊基于自研的高質(zhì)量數(shù)據(jù)清洗和人工標注管線,構(gòu)建了千萬級的高質(zhì)量電影&電視劇&紀錄片數(shù)據(jù)。更依托團隊自研「Human-Centric」的視頻理解多模態(tài)大模型,大幅提升視頻中人物相關(guān)的理解能力,尤其是自研人物智能解析系統(tǒng)。
綜上所述,得益于扎實的數(shù)據(jù)工作和先進的人物智能解析系統(tǒng),SkyReels-V1可以實現(xiàn):
影視化表情識別體系:11種針對影視戲劇中的人物表情理解,如不屑、不耐煩、無助、厭惡等表情的理解;
人物空間位置感知:基于人體三維重建技術(shù),實現(xiàn)對視頻中多人的空間相對關(guān)系理解,助力模型生成影視級人物站位;
行為意圖理解:構(gòu)建超過400種行為語義單元,實現(xiàn)對人物行為的精準理解;
表演場景理解:實現(xiàn)人物-服裝-場景-劇情的關(guān)聯(lián)分析。
SkyReels-V1不僅是全球極少數(shù)開源的視頻生成模型,還是圍繞人物表演、開源視頻生成模型中性能最強的。
在自研推理優(yōu)化框架「SkyReels-Infer」的加持下,大幅提升推理效率,實現(xiàn)544p分辨率,推理基于單臺4090只需80s,還支持分布式多卡并行,支持Context Parallel,CFG Parallel,和 VAE Parallel。此外,采取fp8 quantization以及parameter-level offload,滿足低顯存用戶級顯卡運行需求;支持flash attention、SageAttention,模型編譯優(yōu)化等,進一步優(yōu)化延遲;基于開源diffuser庫,提升易用性。
正如下圖2所示,在同等RTX4090資源情況下對比(4卡),SkyReels-Infer版本比HunyuanVideo官方版本端到端延遲減少58.3%(293.3s vs 464.3s);SkyReels-Infer版本具備更魯棒的部署策略,支持用戶級別顯卡1卡-8卡的推理部署。
圖2丨推理生成544p視頻,使用相同卡數(shù)的RTX 4090,SkyReels-Infer版本端到端延遲優(yōu)于HunyuanVideo官方(xdit) 58.3%
在同等A800資源情況下對比,SkyReels-Infer版本比HunyuanVideo官方版本端到端延遲減少14.7%~28.2%(如圖3所示),SkyReels-Infer版本具備更魯棒的多卡部署策略。
圖3丨推理生成544p視頻,SkyReels-Infer版本具備更魯棒的多卡部署策略,支持8卡部署
2.SkyReels-A1:首個SOTA級別的基于視頻基座模型的表情動作可控算法
為了實現(xiàn)更加精準可控的人物視頻生成,昆侖萬維還開源了SOTA級別的基于視頻基座模型的表情動作可控算法SkyReels-A1,對標Runway的Act-One,SkyReels-A1支持視頻驅(qū)動的電影級表情捕捉,實現(xiàn)高保真微表情還原。能夠基于任意人體比例(包括肖像、半身及全身構(gòu)圖)生成高度逼真的人物動態(tài)視頻,其真實感源自對人物表情變化和情緒的精準模擬、皮膚肌理、身體動作跟隨等多維度細節(jié)的深度還原。
SkyReels-A1不僅支持側(cè)臉的表情控制生成、還能實現(xiàn)更加逼真的眉眼微表情生成和更大幅度的頭部與自然身體動作。SkyReels-A1能夠?qū)崿F(xiàn)更大幅度的人物表情驅(qū)動。相比Runway的Act-One,SkyReels-A1可以遷移更復(fù)雜的表情動作,生成的人物面部神情可以配合肢體及畫面內(nèi)容實現(xiàn)更栩栩如生的表演。
3.以開源之姿,以破局之勢,昆侖萬維致力于推動全球AI短劇創(chuàng)作生態(tài)繁榮發(fā)展
昆侖萬維一直堅持開源,推動技術(shù)平權(quán)。昆侖萬維同時將SOTA級別的SkyReels-V1和SkyReels-A1進行開源,是AI短劇行業(yè)首例,也是昆侖萬維SkyReels回饋行業(yè)邁出的一小步,更是促進AI短劇創(chuàng)作和視頻生成行業(yè)枝繁葉茂的一大步。
我們相信在進行推理優(yōu)化的升級和可控算法的開源后,它們將為用戶帶來低成本、可控性更強的AIGC能力。昆侖萬維希望通過更多優(yōu)秀視頻生成模型的開源和極致的AI短劇產(chǎn)品能力,為用戶帶來低成本實現(xiàn)AI短劇創(chuàng)作的可能性、突破行業(yè)目前視頻生成一致性差的問題,讓大眾通過自己的電腦生成精細且可控的人物表演。
此次開源的視頻大模型,不僅是一次技術(shù)突破,有助于縮小全球內(nèi)容產(chǎn)業(yè)的數(shù)字鴻溝,更是文化產(chǎn)業(yè)生產(chǎn)力的一次革命。未來,短劇與游戲、虛擬現(xiàn)實等領(lǐng)域的跨界發(fā)展,將會加速產(chǎn)業(yè)融合。AI短劇也有希望從“技術(shù)實驗”邁向“主流創(chuàng)作”,成為全球文化輸出的新載體。
“實現(xiàn)通用人工智能,讓每個人更好地塑造和表達自我”是公司的使命,未來,昆侖萬維及SkyReels還將開源更多視頻生成模型和算法、通用模型,通過開源實現(xiàn)AGI平權(quán),推動AI短劇生態(tài)的持續(xù)建設(shè)和繁榮,促進開源社區(qū)、開發(fā)生態(tài)以及AI行業(yè)的發(fā)展。
相關(guān)文章
- 2025開放計算技術(shù)大會|開源開放推動系統(tǒng)創(chuàng)新 加速AIDC全球協(xié)作
- OpenAI發(fā)布開放權(quán)重人工智能模型:采用Apache 2.0開源協(xié)議,支持本地運行
- 浪潮KaiwuDB 出席 2025 開放原子開源生態(tài)大會,開源社區(qū)項目挑戰(zhàn)賽正式發(fā)布
- 拓維信息獲首批“開源先鋒企業(yè)”授牌,引領(lǐng)開源鴻蒙生態(tài)繁榮
- 開源生態(tài)邁向“價值共創(chuàng)”,魔樂社區(qū)迎來第二批理事會成員
- “九天”通用基礎(chǔ)大模型3.0發(fā)布 模型能力多維升級 多項技術(shù)成果開源
- 榮耀發(fā)布 MagicGUI 大模型并開源 加速構(gòu)建AI終端生態(tài)
- 華為任旭東:開源協(xié)作,共同擁抱無限可能的智能世界
- 《中國開源發(fā)展深度報告(2024)》發(fā)布:220余萬開發(fā)者活躍在國際舞臺
- 全國首個開源鴻蒙機器人操作系統(tǒng)M-Robots OS正式開源
- 開源鴻蒙持續(xù)壯大:社區(qū)共建提速,與開發(fā)者共成長
- 開源鴻蒙AI Agent TSG正式成立,推動Agent技術(shù)生態(tài)共建
- vivo以Rust語言自研的藍河操作系統(tǒng)內(nèi)核正式開源
- 《開源鴻蒙共建地圖4.0》在2025開放原子開源生態(tài)大會上重磅發(fā)布
- 深開鴻王成錄:以七大使能厚植生態(tài),推進開源鴻蒙全面落地
- 華為何剛:深耕基礎(chǔ)軟件開源 使能千行萬業(yè)創(chuàng)新
人工智能企業(yè)
更多>>人工智能硬件
更多>>- 從心出發(fā),新品與新技術(shù)雙重進化,技嘉2025線下產(chǎn)品發(fā)布會強勢來襲
- 當“銀發(fā)”遇見“智眼”——神眸亮相2025深圳智慧養(yǎng)老展
- 訊飛同傳助力亞布力夏季年會,打破語言壁壘促全球?qū)υ?/a>
- 低空賦能,跨越山河,大疆運載無人機的甘孜答卷
- 預(yù)制菜又吵起來了?優(yōu)特智廚炒菜機新品發(fā)布會掀起中餐“現(xiàn)炒”熱潮
- 場景化落地部署人形機器人將超2000臺,眾擎機器人與多倫科技達成戰(zhàn)略合作
- 275W極限性能+第二代乾坤散熱!拯救者R9000P 2025至尊版成就電競創(chuàng)作雙巔峰
- 百年聲學品牌再創(chuàng)新!拜雅新品AMIRON 200 & AMIRON ZERO定義開放聆聽新方式
人工智能產(chǎn)業(yè)
更多>>- 人機共生 · 智啟未來——2025高交會亞洲人工智能與機器人產(chǎn)業(yè)鏈展主題發(fā)布
- 北京數(shù)基建發(fā)布“知行IntAct”混合智能體產(chǎn)品,以AI定義城市治理新范式
- 新時達“精耕小腦”,與大腦協(xié)同,加速具身智能垂直落地
- 亞洲愿景論壇 東軟蓋龍佳談AI與數(shù)據(jù)價值化重構(gòu)醫(yī)療未來
- 破解AI落地難題!北大這場特訓營,為企業(yè)找到轉(zhuǎn)型“最優(yōu)解”
- 腦神經(jīng)成像提速數(shù)倍、AI練就“遺忘術(shù)”!2025螞蟻InTech獎頒發(fā)
- 一句話生成圖表!天禧智能體接入ChatExcel MCP Server讓數(shù)據(jù)處理變得如此簡單
- 外灘大會重磅發(fā)布:螞蟻百寶箱Tbox超級智能體亮相,實現(xiàn)分鐘級專業(yè)軟件交付
人工智能技術(shù)
更多>>- 外灘大會首發(fā)! 螞蟻密算推出AI密態(tài)升級卡 實現(xiàn)零改動“即插即用”
- 騰訊優(yōu)圖攜Youtu-Agent開源項目亮相上海創(chuàng)智學院首屆TechFest大會
- 2025外灘大會:王堅暢談AI變革,普天科技錨定空天算力新賽道
- 騰訊正式開源Youtu-GraphRAG,圖檢索增強技術(shù)迎來落地新突破
- 聲網(wǎng)兄弟公司 Agora與OpenAI 攜手 助力多模態(tài) AI 智能體實現(xiàn)實時交互
- Qwen-Image-Edit 模型上線基石智算,圖像編輯更精準
- 火山引擎多模態(tài)數(shù)據(jù)湖落地深勢科技,提升科研數(shù)據(jù)處理效能
- 斑馬AI大模型:為每個孩子提供專屬學習方案