【新視野】時間、空間可控的視頻生成走進現(xiàn)實，阿里大模型新作VideoComposer火了

2023-06-24 04:48:39 來源: 機器之心

機器之心專欄

機器之心編輯部

在 AI 繪畫領(lǐng)域，阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引領(lǐng)了可控圖像生成的理論發(fā)展。但是，業(yè)界在可控視頻生成上的探索依舊處于相對空白的狀態(tài)。

相比于圖像生成，可控的視頻更加復(fù)雜，因為除了視頻內(nèi)容的空間的可控性之外，還需要滿足時間維度的可控性?；诖?，阿里巴巴和螞蟻集團的研究團隊率先做出嘗試并提出了 VideoComposer，即通過組合式生成范式同時實現(xiàn)視頻在時間和空間兩個維度上的可控性。

(相關(guān)資料圖)

論文地址：/abs/

項目主頁：

前段時間，阿里巴巴在魔搭社區(qū)和 Hugging Face 低調(diào)開源了文生視頻大模型，意外地受到國內(nèi)外開發(fā)者的廣泛關(guān)注，該模型生成的視頻甚至得到馬斯克本尊的回應(yīng)，模型在魔搭社區(qū)上連續(xù)多天獲得單日上萬次國際訪問量。

Text-to-Video 在推特

VideoComposer 作為該研究團隊的最新成果，又一次受到了國際社區(qū)的廣泛關(guān)注。

VideoComposer 在推特

事實上，可控性已經(jīng)成為視覺內(nèi)容創(chuàng)作的更高基準(zhǔn)，其在定制化的圖像生成方面取得了顯著進步，但在視頻生成領(lǐng)域仍然具有三大挑戰(zhàn)：

復(fù)雜的數(shù)據(jù)結(jié)構(gòu)，生成的視頻需同時滿足時間維度上的動態(tài)變化的多樣性和時空維度的內(nèi)容一致性；

復(fù)雜的引導(dǎo)條件，已存在的可控的視頻生成需要復(fù)雜的條件是無法人為手動構(gòu)建的。比如 Runway 提出的 Gen-1/2 需要依賴深度序列作條件，其能較好的實現(xiàn)視頻間的結(jié)構(gòu)遷移，但不能很好的解決可控性問題；

缺乏運動可控性，運動模式是視頻即復(fù)雜又抽象的屬性，運動可控性是解決視頻生成可控性的必要條件。

在此之前，阿里巴巴提出的 Composer 已經(jīng)證明了組合性對圖像生成可控性的提升具有極大的幫助，而 VideoComposer 這項研究同樣是基于組合式生成范式，在解決以上三大挑戰(zhàn)的同時提高視頻生成的靈活性。具體是將視頻分解成三種引導(dǎo)條件，即文本條件、空間條件、和視頻特有的時序條件，然后基于此訓(xùn)練 Video LDM (Video Latent Diffusion Model)。特別地，其將高效的 Motion Vector 作為重要的顯式的時序條件以學(xué)習(xí)視頻的運動模式，并設(shè)計了一個簡單有效的時空條件編碼器 STC-encoder，保證條件驅(qū)動視頻的時空連續(xù)性。在推理階段，則可以隨機組合不同的條件來控制視頻內(nèi)容。

實驗結(jié)果表明，VideoComposer 能夠靈活控制視頻的時間和空間的模式，比如通過單張圖、手繪圖等生成特定的視頻，甚至可以通過簡單的手繪方向輕松控制目標(biāo)的運動風(fēng)格。該研究在 9 個不同的經(jīng)典任務(wù)上直接測試 VideoComposer 的性能，均獲得滿意的結(jié)果，證明了 VideoComposer 通用性。

圖（a-c）VideoComposer 能夠生成符合文本、空間和時間條件或其子集的視頻；（d）VideoComposer 可以僅僅利用兩筆畫來生成滿足梵高風(fēng)格的視頻，同時滿足預(yù)期運動模式（紅色筆畫）和形狀模式（白色筆畫）

方法介紹

Video LDM

隱空間。Video LDM 首先引入預(yù)訓(xùn)練的編碼器將輸入的視頻映射到隱空間表達，其中。然后，在用預(yù)先訓(xùn)練的解碼器 D 將隱空間映射到像素空間上去。在 VideoComposer 中，參數(shù)設(shè)置。

擴散模型。為了學(xué)習(xí)實際的視頻內(nèi)容分布，擴散模型學(xué)習(xí)從正態(tài)分布噪聲中逐步去噪來恢復(fù)真實的視覺內(nèi)容，該過程實際上是在模擬可逆的長度為 T=1000 的馬爾可夫鏈。為了在隱空間中進行可逆過程，Video LDM 將噪聲注入到中，得到噪聲注入的隱變量。然后其通過用去噪函數(shù) 作用在和輸入條件 c 上，那么其優(yōu)化目標(biāo)如下：

為了充分探索利用空間局部的歸納偏置和序列的時間歸納偏置進行去噪，VideoComposer 將實例化為一個 3D UNet，同時使用時序卷積算子和交叉注意機制。

VideoComposer

組合條件。VideoComposer 將視頻分解為三種不同類型的條件，即文本條件、空間條件和關(guān)鍵的時序條件，它們可以共同確定視頻中的空間和時間模式。VideoComposer 是一個通用的組合式視頻生成框架，因此，可以根據(jù)下游應(yīng)用程序?qū)⒏嗟亩ㄖ茥l件納入 VideoComposer，不限于下述列出的條件：

文本條件：文本 (Text) 描述以粗略的視覺內(nèi)容和運動方面提供視頻的直觀指示，這也是常用的 T2V 常用的條件；

空間條件：

單張圖 (Single Image)，選擇給定視頻的第一幀作為空間條件來進行圖像到視頻的生成，以表達該視頻的內(nèi)容和結(jié)構(gòu)；

單張早圖 (Single Sketch)，使用 PiDiNet 提取第一個視頻幀的草圖作為第二個空間條件；

風(fēng)格（Style），為了進一步將單張圖像的風(fēng)格轉(zhuǎn)移到合成的視頻中，選擇圖像嵌入作為風(fēng)格指導(dǎo)；

時序條件：

運動矢量（Motion Vector），運動矢量作為視頻特有的元素表示為二維向量，即水平和垂直方向。它明確地編碼了相鄰兩幀之間的逐像素移動。由于運動矢量的自然屬性，將此條件視為時間平滑合成的運動控制信號，其從壓縮視頻中提取標(biāo)準(zhǔn) MPEG-4 格式的運動矢量；

深度序列（Depth Sequence），為了引入視頻級別的深度信息，利用 PiDiNet 中的預(yù)訓(xùn)練模型提取視頻幀的深度圖；

掩膜序列（Mask Sequence），引入管狀掩膜來屏蔽局部時空內(nèi)容，并強制模型根據(jù)可觀察到的信息預(yù)測被屏蔽的區(qū)域；

草圖序列（Sketch Sequnce），與單個草圖相比，草圖序列可以提供更多的控制細(xì)節(jié)，從而實現(xiàn)精確的定制合成。

時空條件編碼器。序列條件包含豐富而復(fù)雜的時空依賴關(guān)系，對可控的指示帶來了較大挑戰(zhàn)。為了增強輸入條件的時序感知，該研究設(shè)計了一個時空條件編碼器（STC-encoder）來納入空時關(guān)系。具體而言，首先應(yīng)用一個輕量級的空間結(jié)構(gòu)，包括兩個 2D 卷積和一個 avgPooling，用于提取局部空間信息，然后將得到的條件序列被輸入到一個時序 Transformer 層進行時間建模。這樣，STC-encoder 可以促進時間提示的顯式嵌入，為多樣化的輸入提供統(tǒng)一的條件植入入口，從而增強幀間一致性。另外，該研究在時間維度上重復(fù)單個圖像和單個草圖的空間條件，以確保它們與時間條件的一致性，從而方便條件植入過程。

通過 STC-encoder 處理條件后，最終的條件序列具有與相同的空間形狀，然后通過元素加法融合。最后，沿通道維度將合并后的條件序列與連接起來作為控制信號。對于文本和風(fēng)格條件，利用交叉注意力機制注入文本和風(fēng)格指導(dǎo)。

訓(xùn)練和推理

兩階段訓(xùn)練策略。雖然 VideoComposer 可以通過圖像 LDM 的預(yù)訓(xùn)練進行初始化，其能夠在一定程度上緩解訓(xùn)練難度，但模型難以同時具有時序動態(tài)感知的能力和多條件生成的能力，這個會增加訓(xùn)練組合視頻生成的難度。因此，該研究采用了兩階段優(yōu)化策略，第一階段通過 T2V 訓(xùn)練的方法，讓模型初步具有時序建模能力；第二階段在通過組合式訓(xùn)練來優(yōu)化 VideoComposer，以達到比較好的性能。

推理。在推理過程中，采用 DDIM 來提高推理效率。并采用無分類器指導(dǎo)來確保生成結(jié)果符合指定條件。生成過程可以形式化如下：

其中，ω 是指導(dǎo)比例；c1 和 c2 是兩組條件。這種指導(dǎo)機制在兩條件集合判斷，可以通過強度控制來讓模型具有更加靈活的控制。

實驗結(jié)果

在實驗探索中，該研究證明作為 VideoComposer 作為統(tǒng)一模型具有通用生成框架，并在 9 項經(jīng)典任務(wù)上驗證 VideoComposer 的能力。

該研究的部分結(jié)果如下，在靜態(tài)圖片到視頻生成（圖 4）、視頻 Inpainting（圖 5）、靜態(tài)草圖生成生視頻（圖 6）、手繪運動控制視頻（圖 8）、運動遷移（圖 A12）均能體現(xiàn)可控視頻生成的優(yōu)勢。

團隊介紹

公開信息顯示，阿里巴巴在視覺基礎(chǔ)模型上的研究主要圍繞視覺表征大模型、視覺生成式大模型及其下游應(yīng)用的研究，并在相關(guān)領(lǐng)域已經(jīng)發(fā)表 CCF-A 類論文 60 余篇以及在多項行業(yè)競賽中獲得 10 余項國際冠軍，比如可控圖像生成方法 Composer、圖文預(yù)訓(xùn)練方法 RA-CLIP 和 RLEG、未裁剪長視頻自監(jiān)督學(xué)習(xí) HiCo/HiCo++、說話人臉生成方法 LipFormer 等均出自該團隊。

?THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

投稿或?qū)で髨蟮溃篶ontent@

關(guān)鍵詞：

夜先锋av资源网站,国产精品极品美女在线观看免,欧美亚洲精品电影在线观看,日韩在线精品强乱一区二区三区

【新視野】時間、空間可控的視頻生成走進現(xiàn)實，阿里大模型新作VideoComposer火了

您可能也感興趣:

今日熱點

西寧市城區(qū)2023年初中學(xué)業(yè)水平暨高中招生考試溫馨提示當(dāng)前速訊

【當(dāng)前獨家】微軟誓要收購動視暴雪索尼急了！PS6主機將封殺之

大跌6%！防水一哥東方雨虹頻頻參與土拍，什么情況？

更多

更多

排行

最近更新

今日要聞

夜先锋av资源网站,国产精品极品美女在线观看免,欧美亚洲精品电影在线观看,日韩在线精品强乱一区二区三区

【新視野】時間、空間可控的視頻生成走進現(xiàn)實，阿里大模型新作VideoComposer火了

您可能也感興趣:

今日熱點

西寧市城區(qū)2023年初中學(xué)業(yè)水平暨高中招生考試溫馨提示 當(dāng)前速訊

【當(dāng)前獨家】微軟誓要收購動視暴雪 索尼急了！PS6主機將封殺之

大跌6%！防水一哥東方雨虹頻頻參與土拍，什么情況？

為您推薦

十一位技術(shù)高管“出走”背后，中國自動駕駛行業(yè)正在“覺醒”

焦點速遞！咸菜餅家常做法?

全球資訊：用Stata進行量化分析_關(guān)于用Stata進行量化分析介紹

熱點評！再添千人起訴！美軍這個丑聞越鬧越大

更多

更多

排行

最近更新

今日要聞

【新視野】時間、空間可控的視頻生成走進現(xiàn)實，阿里大模型新作VideoComposer火了

西寧市城區(qū)2023年初中學(xué)業(yè)水平暨高中招生考試溫馨提示當(dāng)前速訊

【當(dāng)前獨家】微軟誓要收購動視暴雪索尼急了！PS6主機將封殺之

大跌6%！防水一哥東方雨虹頻頻參與土拍，什么情況？

十一位技術(shù)高管“出走”背后，中國自動駕駛行業(yè)正在“覺醒”

熱點評！再添千人起訴！美軍這個丑聞越鬧越大