國內著名大模型開源公司潞晨科技,對其開源文生視頻模型Open-Sora進行了大更新,現在可生成16秒,分辨率高達720P的視頻。
同時具備可以處理任何寬高比的文本到圖像、文本到視頻、圖像到視頻、視頻到視頻和無限長視頻的多模態功能。
本次潞晨科技已經把Open-Sora的模型架構、最新的模型權重、多時間/分辨率/長寬比/幀率的訓練流程、數據收集和預處理的完整流程、所有的訓練細節進行了全部開源。
目前,Open-Sora在github超過16,000顆星,是國內乃至全球領先的類Sora開源模型之一。
開源地址:https://github.com/hpcaitech/Open-Sora?tab=readme-ov-file
Open-Sora架構升級
Open-Sora本次升級對1.0版本中的STDiT架構進行了關鍵性改進,旨在提高模型的訓練穩定性和整體性能。
針對當前的序列預測任務,團隊采納了大型語言模型的最佳實踐,將時序注意力中的正弦波位置編碼替換為更加高效的旋轉位置編碼。
此外,為了增強訓練的穩定性參考SD3模型架構,進一步引入了QK歸一化技術,以增強半精度訓練的穩定性。
為了支持多分辨率、不同長寬比和幀率的訓練需求,提出的ST-DiT-2架構能夠自動縮放位置編碼,并處理不同大小尺寸的輸入。
多階段訓練
在新版本Open-Sora中采用了一種多階段訓練方法,每個階段都會基于前一個階段的權重繼續訓練。
相較于單一階段訓練,這種多階段訓練通過分步驟引入數據,更高效地實現了高質量視頻生成的目標。
初始階段:大部分視頻采用144p分辨率,同時與圖片和240p、480p的視頻進行混訓,訓練持續約1周,總步長81k。
第二階段:將大部分視頻數據分辨率提升至240p和480p,訓練時長為1天,步長達到22k。
第三階段:進一步增強至480p和720p,訓練時長為1天,完成了4k步長的訓練。整個多階段訓練流程在約9天內完成。
統一的圖生視頻/視頻生視頻框架
研究人員發現,基于Transformer的特性,可以輕松擴展DiT架構以支持圖像到圖像以及視頻到視頻的任務,并提出了一種掩碼策略來支持圖像和視頻的條件化處理。
通過設置不同的掩碼,可以支持各種生成任務,包括:圖生視頻,循環視頻,視頻延展,視頻自回歸生成,視頻銜接,視頻編輯,插幀等。
受到UL2方法的啟發,在模型訓練階段引入了一種隨機掩碼策略。具體而言,就是在訓練過程中以隨機方式選擇并取消掩碼的幀,包括但不限于取消掩碼第一幀、前k幀、后k幀、任意k幀等。
基于Open-Sora1.0的實驗,應用50%的概率應用掩碼策略時,只需少量步數模型能夠更好地學會處理圖像條件化。在最新版的Open-Sora中,采用了從頭開始使用掩碼策略進行預訓練的方法。
此外,還為推理階段提供了掩碼策略配置的詳細指南,五個數字的元組形式在定義掩碼策略時提供了極大的靈活性和控制力。
支持多時間/分辨率/長寬比/幀率訓練
OpenAI在Sora的技術報告指出,使用原始視頻的分辨率、長寬比和長度進行訓練可以增加采樣靈活性,改善幀和構圖。對此,提出了分桶的策略。
所謂的桶,是分辨率、幀數、長寬比的三元組。為不同分辨率的視頻預定義了一系列寬高比,以覆蓋大多數常見的視頻寬高比類型。
在每個訓練周期epoch開始之前,會對數據集進行重新洗牌,并將樣本根據其特征分配到相應的桶中。會將每個樣本放入一個分辨率和幀長度均小于或等于該視頻特性的桶中。
為了降低計算資源的要求,研究人員為每個keep_prob 和 batch_size 引入兩個屬性(分辨率、幀數),以減少計算成本并實現多階段訓練。這樣就可以控制不同桶中的樣本數量,并通過為每個桶搜索良好的批大小來平衡 GPU 負載。
數據收集和預處理流程
在 Open-Sora1.0的開發過程中,研究人員意識到數據的數量和質量對于培育一個高效能模型極為關鍵。
因此,新版本中致力于擴充和優化數據集,建立了一個自動化的數據處理流程,該流程遵循奇異值分解(SVD)原則,涵蓋了場景分割、字幕處理、多樣化評分與篩選,以及數據集的管理系統和規范。
同樣,潞晨科技也將數據處理的相關腳本無私地分享至開源社區。感興趣的小伙伴們現在可以利用這些資源,結合技術報告和代碼高效地處理和優化自己的數據集。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。