91视频网,精品少妇一区二区三区视频

4月21日，昆侖萬維SkyReels團隊正式發(fā)布并開源SkyReels-V2——全球首個使用擴散強迫（Diffusion-forcing）框架的無限時長電影生成模型，其通過結(jié)合多模態(tài)大語言模型（MLLM）、多階段預(yù)訓(xùn)練（Multi-stage Pretraining）、強化學習（Reinforcement Learning）和擴散強迫（Diffusion-forcing）框架來實現(xiàn)協(xié)同優(yōu)化。

回顧過去一年，視頻生成技術(shù)在擴散模型和自回歸框架的推動下取得了顯著進展，但在提示詞遵循、視覺質(zhì)量、運動動態(tài)和視頻時長的協(xié)調(diào)上仍面臨重大挑戰(zhàn)。

現(xiàn)有技術(shù)在提升穩(wěn)定的視覺質(zhì)量時往往犧牲運動動態(tài)效果，為了優(yōu)先考慮高分辨率而限制視頻時長（通常為5-10秒），并且由于通用多模態(tài)大語言模型（MLLM）無法解讀電影語法（如鏡頭構(gòu)圖、演員表情和攝像機運動），導(dǎo)致鏡頭感知生成能力不足。這些相互關(guān)聯(lián)的限制阻礙了長視頻的逼真合成和專業(yè)電影風格的生成。

為了解決這些痛點，SkyReels-V2應(yīng)運而生，它不僅在技術(shù)上實現(xiàn)了突破，還提供多了多種有用的應(yīng)用場景，包括故事生成、圖生視頻、運鏡專家和多主體一致性視頻生成（SkyReels-A2）。

SkyReels-V2現(xiàn)已支持生成30秒、40秒的視頻，且具備生成高運動質(zhì)量、高一致性、高保真視頻的能力。

核心技術(shù)創(chuàng)新，邁入“無限時長、影視級質(zhì)量、精準控制”的全新視頻生成階段

圖丨SkyReels-V2方法概述

SkyReels-V2能夠達到這樣的視頻生成效果，源于其多項創(chuàng)新技術(shù)：

1. 全面的影視級視頻理解模型：SkyCaptioner-V1

為了提高提示詞遵循能力，團隊設(shè)計了一種結(jié)構(gòu)化的視頻表示方法，將多模態(tài)LLM的一般描述與子專家模型的詳細鏡頭語言相結(jié)合。這種方法能夠識別視頻中的主體類型、外觀、表情、動作和位置等信息，同時通過人工標注和模型訓(xùn)練，進一步提升了對鏡頭語言的理解能力。

同時，團隊訓(xùn)練了一個統(tǒng)一的視頻理解模型 SkyCaptioner-V1，它能夠高效地理解視頻數(shù)據(jù)，生成符合原始結(jié)構(gòu)信息的多樣化描述。通過這種方式，SkyCaptioner-V1不僅能夠理解視頻的一般內(nèi)容，還能捕捉到電影場景中的專業(yè)鏡頭語言，從而顯著提高了生成視頻的提示詞遵循能力。此外，這個模型現(xiàn)在已經(jīng)開源，可以直接使用。

圖丨在視頻理解測試集上的模型綜合性能比較中，SkyCaptioner-V1表現(xiàn)優(yōu)異，超越了SOTA的模型?

2. 針對運動的偏好優(yōu)化

現(xiàn)有的視頻生成模型在運動質(zhì)量上表現(xiàn)不佳，主要原因是優(yōu)化目標未能充分考慮時序一致性和運動合理性。我們通過強化學習（RL）訓(xùn)練，使用人工標注和合成失真數(shù)據(jù)，解決了動態(tài)扭曲、不合理等問題。為了降低數(shù)據(jù)標注成本，我們設(shè)計了一個半自動數(shù)據(jù)收集管道，能夠高效地生成偏好對比數(shù)據(jù)對。

通過這種方式，SkyReels-V2在運動動態(tài)方面表現(xiàn)優(yōu)異，能夠生成流暢且逼真的視頻內(nèi)容，滿足電影制作中對高質(zhì)量運動動態(tài)的需求。

3. 高效的擴散強迫框架

為了實現(xiàn)長視頻生成能力，我們提出了一種擴散強迫（diffusion forcing）后訓(xùn)練方法。與從零開始訓(xùn)練擴散強迫模型不同，我們通過微調(diào)預(yù)訓(xùn)練的擴散模型，將其轉(zhuǎn)化為擴散強迫模型。這種方法不僅減少了訓(xùn)練成本，還顯著提高了生成效率。

我們采用非遞減噪聲時間表，將連續(xù)幀的去噪時間表搜索空間從?O(1e48) 降低到?O(1e32)，從而實現(xiàn)了長視頻的高效生成。這一創(chuàng)新使得SkyReels-V2能夠生成幾乎無限時長的高質(zhì)量視頻內(nèi)容。

4. 漸進式分辨率預(yù)訓(xùn)練與多階段后訓(xùn)練優(yōu)化

為了開發(fā)一個專業(yè)的影視生成模型，我們的多階段質(zhì)量保證框架整合了來自三個主要來源的數(shù)據(jù)：

通用數(shù)據(jù)集：整合了開源資源，包括Koala-36M、HumanVid，以及從互聯(lián)網(wǎng)爬取的額外視頻資源。這些數(shù)據(jù)提供了廣泛的基礎(chǔ)視頻素材，涵蓋了多種場景和動作。

自收集媒體：包括280,000多部電影和800,000多集電視劇，覆蓋120多個國家（估計總時長超過620萬小時）。這些數(shù)據(jù)為模型提供了豐富的電影風格和敘事結(jié)構(gòu)。

藝術(shù)資源庫：從互聯(lián)網(wǎng)獲取的高質(zhì)量視頻資產(chǎn)，確保生成內(nèi)容的視覺質(zhì)量達到專業(yè)標準。

原始數(shù)據(jù)集規(guī)模達到億級（O(100M)），不同子集根據(jù)質(zhì)量要求在各個訓(xùn)練階段使用。此外，我們還收集了億級的概念平衡圖像數(shù)據(jù)，以加速早期訓(xùn)練中生成能力的建立。在此數(shù)據(jù)基礎(chǔ)上，我們首先通過漸進式分辨率預(yù)訓(xùn)練建立基礎(chǔ)視頻生成模型，然后進行四階段的后續(xù)訓(xùn)練增強：

初始概念平衡的監(jiān)督微調(diào)（SFT）：通過概念平衡的數(shù)據(jù)集進行微調(diào)，為后續(xù)優(yōu)化提供良好的初始化。

運動特定的強化學習（RL）訓(xùn)練：通過偏好優(yōu)化提升運動動態(tài)質(zhì)量。

擴散強迫框架（DF）：實現(xiàn)長視頻生成能力。

高質(zhì)量SFT：進一步提升視覺保真度。

結(jié)合富含影視級別數(shù)據(jù)和多階段優(yōu)化方法，我們確保了SkyReels-V2在資源有限的情況下，高效的穩(wěn)步提升多方面的表現(xiàn)，達到影視級視頻生成的水準。

在SkyReels-Bench和V-Bench評估中，性能表現(xiàn)卓越

為了全面評估SkyReels-V2的性能，我們構(gòu)建了SkyReels-Bench用于人類評估，并利用開源的V-Bench進行自動化評估。這種雙重評估框架使我們能夠系統(tǒng)地比較SkyReels-V2和其他最先進的基線模型（包括開源和閉源模型）。

1. SkyReels-Bench評估

SkyReels-Bench包含1020個文本提示詞，系統(tǒng)性地評估了四個關(guān)鍵維度：指令遵循、運動質(zhì)量、一致性和視覺質(zhì)量。該基準旨在評估文本到視頻（T2V）和圖像到視頻（I2V）生成模型，提供跨不同生成范式的全面評估。

在SkyReels-Bench評估中，SkyReels-V2在指令遵循方面取得了顯著進展，同時在保證運動質(zhì)量的同時不犧牲視頻的一致性效果。具體表現(xiàn)如下：

指令遵循：SkyReels-V2在運動指令、主體指令、空間關(guān)系、鏡頭類型、表情和攝像機運動的遵循上均優(yōu)于基線方法。

運動質(zhì)量：在運動動態(tài)性、流暢性和物理合理性方面，SkyReels-V2表現(xiàn)出色，生成的運動內(nèi)容自然且多樣。

一致性：主體和場景在整個視頻中保持高度一致，運動過程有較高的保真度。

視覺質(zhì)量：生成視頻在視覺清晰度、色彩準確性和結(jié)構(gòu)完整性上均達到高水平，無明顯扭曲或損壞。

圖丨在SkyReels-Bench的T2V多維度人工評測集下，SkyReels-V2在指令遵循和一致性得到最高水準，同時在視頻質(zhì)量和運動質(zhì)量上保持第一梯隊

2. VBench1.0結(jié)果

在VBench1.0自動化評估中，SkyReels-V2在總分（83.9%）和質(zhì)量分（84.7%）上均優(yōu)于所有對比模型，包括HunyuanVideo-13B和Wan2.1-14B。這一結(jié)果進一步驗證了SkyReels-V2在生成高保真、指令對齊的視頻內(nèi)容方面的強大能力。

圖丨在V-bench1.0的長prompt版本下，SkyReels-V2超越了所有的開源模型，包括HunyuanVideo-13B和Wan2.1-14B

豐富的應(yīng)用場景，賦能創(chuàng)意實現(xiàn)

SkyReels-V2不僅在技術(shù)上實現(xiàn)了突破，還為多個實際應(yīng)用場景提供了強大的支持：

1. 故事生成

SkyReels-V2能夠生成理論上無限時長的視頻，通過滑動窗口方法，模型在生成新幀時會參考之前生成的幀和文本提示。為了防止錯誤積累，我們采用了穩(wěn)定化技術(shù)，通過在之前生成的幀上添加輕微噪聲來穩(wěn)定生成過程。這種方法不僅支持時間上的擴展，還能生成具有連貫敘事的長鏡頭視頻。

通過一系列敘事文本提示，SkyReels-V2能夠編排一個連貫的視覺敘事，跨越多個動作場景，同時保持視覺一致性。這種能力確保了場景之間的平滑過渡，使得動態(tài)敘事更加流暢，而不會影響視覺元素的完整性。這一功能特別適合需要復(fù)雜多動作序列的應(yīng)用，如電影制作和廣告創(chuàng)作。

2. 圖像到視頻合成

SkyReels-V2提供了兩種圖像到視頻（I2V）的生成方法：

· 微調(diào)全序列文本到視頻（T2V）擴散模型（SkyReels-V2-I2V）：通過將輸入圖像作為條件注入T2V架構(gòu)中，模型能夠利用參考幀進行后續(xù)生成。這種方法在384個GPU上僅需10,000次訓(xùn)練迭代即可取得和閉源模型同等級的效果。

· 擴散強迫模型與幀條件結(jié)合（SkyReels-V2-DF）：通過將第一幀作為干凈的參考條件輸入擴散框架，無需顯式重新訓(xùn)練即可保持時間一致性。

在SkyReels-Bench的I2V多維度人工評測集下，SkyReels-V2在所有質(zhì)量維度上均優(yōu)于其他開源模型，并與閉源模型表現(xiàn)相當。

3. 攝像導(dǎo)演功能

SkyReels-V2在標注攝像機運動方面表現(xiàn)出色，但我們發(fā)現(xiàn)攝像機運動數(shù)據(jù)的固有不平衡對進一步優(yōu)化攝影參數(shù)提出了挑戰(zhàn)。為此，我們專門篩選了約100萬個樣本，確?；緮z像機運動及其常見組合的平衡表示。通過在384個GPU上進行3,000次迭代的微調(diào)實驗，我們顯著提升了攝影效果，特別是在攝像機運動的流暢性和多樣性方面。

4. 元素到視頻生成

基于SkyReels-V2基座模型，我們研發(fā)了SkyReels-A2方案，并提出了一種新的多元素到視頻（E2V）任務(wù)，能夠?qū)⑷我庖曈X元素（如人物、物體和背景）組合成由文本提示引導(dǎo)的連貫視頻，同時確保對每個元素的參考圖像的高保真度。這一功能特別適合短劇、音樂視頻和虛擬電商內(nèi)容創(chuàng)作等應(yīng)用。

作為首個商業(yè)級E2V開源模型，SkyReels-A2在E2V評估Benchmark A2-Bench中的結(jié)果表明，其一致性和質(zhì)量維度上評估與閉源模型相當。未來，我們計劃擴展框架以支持更多輸入模態(tài)，如音頻和動作，旨在構(gòu)建一個統(tǒng)一的視頻生成系統(tǒng)，以支持更廣泛的應(yīng)用。

SkyReels-V2的推出標志著視頻生成技術(shù)邁入了一個新的階段，為實現(xiàn)高質(zhì)量、長時間的電影風格視頻生成提供了全新的解決方案。它不僅為內(nèi)容創(chuàng)作者提供了強大的工具，更開啟了利用AI進行視頻敘事和創(chuàng)意表達的無限可能。

昆侖萬維SkyReels團隊仍致力于推動視頻生成技術(shù)的發(fā)展，并將SkyCaptioner-V1和SkyReels-V2系列模型（包括擴散強迫、文本到視頻、圖像到視頻、攝像導(dǎo)演和元素到視頻模型）的各種尺寸（1.3B、5B、14B）進行完全開源，以促進學術(shù)界和工業(yè)界的進一步研究和應(yīng)用。

		勞震宇：跨界傳媒人，羊城網(wǎng)創(chuàng)辦者。

		韋然：香港作曲家、作詞人、專欄作家，被譽為香港粵語兒歌之父。

		葉曙明：挖掘歷史，探討歷史，激活民間記憶。

		李沛聰：歷史故事，讀書心得，粵語文化，每晚為你講一段。

		彭嘉志：粵語說書傳承人。

		游威：華語金曲獎創(chuàng)辦人兼總策劃，全球華語音樂聯(lián)盟秘書長，資深樂評人，娛樂營銷人。

		李欣，知名英普粵三語主持，前廣州電視臺新聞主播；廣州市閱讀推廣大使；環(huán)球旅行作家；著有《在最美年華，做最好的夢》。

		呂兆球：考諸古籍舊畫，粵中故跡，搜奇探勝，記錄廣州民俗、風物、奇談，聊為飯后談資，足矣。

SkyReels-V2開源：突破視頻生成技術(shù)邊界，開啟無限時長電影生成新時代

廣府童謠潤童心，璞玉文學社啟航

騰訊“物種之眼”AI全新升級，高效識別數(shù)千物種

筍嘢

專欄

評論

專題

風花說粵

為食人生

今日講呢啲

廣州親子美食手札

關(guān)注

SkyReels-V2開源：突破視頻生成技術(shù)邊界，開啟無限時長電影生成新時代

微信掃一掃,分享到朋友圈

廣府童謠潤童心，璞玉文學社啟航

騰訊“物種之眼”AI全新升級，高效識別數(shù)千物種

猜你喜歡

省總工會開展“關(guān)愛職工健康，助力‘百千萬工程’”百場縣鎮(zhèn)職工義診活動，搭建省級優(yōu)質(zhì)資源與基層醫(yī)療力量對接平臺

持續(xù)進化的明月鏡片期待“變酷”

華潤萬家煥鄉(xiāng)計劃之百家基地建設(shè)，額吉淖爾湖鹽基地正式授牌

麗江為莘莘學子備上暑期旅游“大禮包”

把行業(yè)共創(chuàng)場景向大學延伸，樂其創(chuàng)新SmallRig攜手深職大未來技術(shù)學院開啟實踐營

全面對標世界一流，揚子江藥業(yè)集團召開2025年年中工作會議暨職工代表大會

筍嘢

專欄

評論

專題

風花說粵

為食人生

今日講呢啲

廣州親子美食手札

關(guān)注

大家都在搜

關(guān)注我們的公眾號

廣府童謠潤童心，璞玉文學社啟航

騰訊“物種之眼”AI全新升級，高效識別數(shù)千物種

省總工會開展“關(guān)愛職工健康，助力‘百千萬工程’”百場縣鎮(zhèn)職工義診活動，搭建省級優(yōu)質(zhì)資源與基層醫(yī)療力量對接平臺

把行業(yè)共創(chuàng)場景向大學延伸，樂其創(chuàng)新SmallRig攜手深職大未來技術(shù)學院開啟實踐營

全面對標世界一流，揚子江藥業(yè)集團召開2025年年中工作會議暨職工代表大會