拖拽下圖像就能生成視頻,中科大、微軟等DragNUWA屬實(shí)驚艷
機(jī)器之心報(bào)道
(相關(guān)資料圖)
編輯:小舟
隨著 ChatGPT、GPT-4、LLaMa 等模型的問(wèn)世,人們?cè)絹?lái)越關(guān)注生成式模型的發(fā)展。相比于日漸成熟的文本生成和圖像生成,視頻、語(yǔ)音等模態(tài)的 AI 生成還面臨著較大的挑戰(zhàn)。
現(xiàn)有可控視頻生成工作主要存在兩個(gè)問(wèn)題:首先,大多數(shù)現(xiàn)有工作基于文本、圖像或軌跡來(lái)控制視頻的生成,無(wú)法實(shí)現(xiàn)視頻的細(xì)粒度控制;其次,軌跡控制研究仍處于早期階段,大多數(shù)實(shí)驗(yàn)都是在 Human3.6M 等簡(jiǎn)單數(shù)據(jù)集上進(jìn)行的,這種約束限制了模型有效處理開(kāi)放域圖像和復(fù)雜彎曲軌跡的能力。
基于此,來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)、微軟亞研和北京大學(xué)的研究者提出了一種基于開(kāi)放域擴(kuò)散的新型視頻生成模型 ——DragNUWA。DragNUWA 從語(yǔ)義、空間和時(shí)間三個(gè)角度實(shí)現(xiàn)了對(duì)視頻內(nèi)容的細(xì)粒度控制。本文共一作殷晟明、吳晨飛,通訊作者段楠。
論文地址:https://arxiv.org/abs/2308.08089
以拖動(dòng)(drag)的方式給出運(yùn)動(dòng)軌跡,DragNUWA 就能讓圖像中的物體對(duì)象按照該軌跡移動(dòng)位置,并且可以直接生成連貫的視頻。例如,讓兩個(gè)滑滑板的小男孩按要求路線滑行:
還可以「變換」靜態(tài)景物圖像的相機(jī)位置和角度:
方法簡(jiǎn)介
該研究認(rèn)為文本、圖像、軌跡這三種類(lèi)型的控制是缺一不可的,因?yàn)樗鼈兏髯杂兄趶恼Z(yǔ)義、空間和時(shí)間角度控制視頻內(nèi)容。如下圖 1 所示,僅文本和圖像的組合不足以傳達(dá)視頻中存在的復(fù)雜運(yùn)動(dòng)細(xì)節(jié),這可以用軌跡信息來(lái)補(bǔ)充;僅圖像和軌跡組合無(wú)法充分表征視頻中的未來(lái)物體,文本控制可以彌補(bǔ)這一點(diǎn);在表達(dá)抽象概念時(shí),僅依賴軌跡和文本可能會(huì)導(dǎo)致歧義,圖像控制可以提供必要的區(qū)別。
DragNUWA 是一種端到端的視頻生成模型,它無(wú)縫集成了三個(gè)基本控件 —— 文本、圖像和軌跡,提供強(qiáng)大且用戶友好的可控性,從語(yǔ)義、空間和時(shí)間角度對(duì)視頻內(nèi)容進(jìn)行細(xì)粒度控制。
為了解決當(dāng)前研究中有限的開(kāi)放域軌跡控制問(wèn)題,該研究重點(diǎn)關(guān)注三個(gè)方面的軌跡建模:
使用軌跡采樣器(Trajectory Sampler,TS)在訓(xùn)練期間直接從開(kāi)放域視頻流中采樣軌跡,用于實(shí)現(xiàn)任意軌跡的開(kāi)放域控制; 使用多尺度融合(Multiscale Fusion,MF)將軌跡下采樣到各種尺度,并將其與 UNet 架構(gòu)每個(gè)塊內(nèi)的文本和圖像深度集成,用于控制不同粒度的軌跡; 采用自適應(yīng)訓(xùn)練(Adaptive Training,AT)策略,以密集流為初始條件來(lái)穩(wěn)定視頻生成,然后在稀疏軌跡上進(jìn)行訓(xùn)練以適應(yīng)模型,最終生成穩(wěn)定且連貫的視頻。實(shí)驗(yàn)及結(jié)果
該研究用大量實(shí)驗(yàn)來(lái)驗(yàn)證 DragNUWA 的有效性,實(shí)驗(yàn)結(jié)果展示了其在視頻合成細(xì)粒度控制方面的卓越性能。
與現(xiàn)有專(zhuān)注于文本或圖像控制的研究不同,DragNUWA 主要強(qiáng)調(diào)建模軌跡控制。為了驗(yàn)證軌跡控制的有效性,該研究從相機(jī)運(yùn)動(dòng)和復(fù)雜軌跡兩個(gè)方面測(cè)試了 DragNUWA。
如下圖 4 所示,DragNUWA 雖然沒(méi)有明確地對(duì)相機(jī)運(yùn)動(dòng)進(jìn)行建模,但它從開(kāi)放域軌跡的建模中學(xué)習(xí)了各種相機(jī)運(yùn)動(dòng)。
為了評(píng)估 DragNUWA 對(duì)復(fù)雜運(yùn)動(dòng)的精確建模能力,該研究使用相同的圖像和文本對(duì)各種復(fù)雜的拖動(dòng)(drag)軌跡進(jìn)行了測(cè)試。如下圖 5 所示,實(shí)驗(yàn)結(jié)果表明 DragNUWA 能夠可靠地控制復(fù)雜運(yùn)動(dòng)。
此外,DragNUWA 雖然主要強(qiáng)調(diào)軌跡控制建模,但也融合了文本和圖像控制。研究團(tuán)隊(duì)認(rèn)為,文本、圖像和軌跡分別對(duì)應(yīng)視頻的三個(gè)基本控制方面:語(yǔ)義、空間和時(shí)間。下圖 6 通過(guò)展示文本(p)、軌跡(g)和圖像(s)的不同組合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)說(shuō)明了這些控制條件的必要性。
感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容
關(guān)鍵詞:
您可能也感興趣:
今日熱點(diǎn)
為您推薦
撩人美杜莎女王cosplay,斗破蒼穹中邪惡與柔情的絕美融合!
蹲下去站起來(lái)頭暈想吐是怎么回事(蹲下去站起來(lái)頭暈)
云南“疑被販賣(mài)緬北”女生平安回家,警方:正核實(shí)聊天記錄真實(shí)性
更多
- 國(guó)泰基金出資5000萬(wàn)元自購(gòu)旗下股票型、混合型公募基金
- 連續(xù)5日凈買(mǎi)入 工業(yè)富聯(lián)獲滬股通凈買(mǎi)入8.33億元
- 北京新增3宗預(yù)申請(qǐng)宅地 交易總起始價(jià)129.6億元
- 劉志仁:扛牢職責(zé)使命 強(qiáng)化服務(wù)保障 高標(biāo)準(zhǔn)高質(zhì)量抓好退役...
- 1940年屬什么生肖_最長(zhǎng)壽的2個(gè)生肖1940年屬什么生肖
- 降雨助力!濟(jì)南 “月牙飛瀑”勝景醉人
- 免疫lncrna(nsa免疫工具)
- 我打算7月份去月坨島,能告訴我最近的景點(diǎn)有哪些嗎?
更多
- 截至今年7月底脫貧人口就業(yè)務(wù)工超3200萬(wàn)人
- 年糕太硬怎么變軟 年糕太硬怎么變軟一點(diǎn)
- 8月21日江蘇新海硫磺報(bào)價(jià)平穩(wěn)
- 我省“云朵家園”助殘項(xiàng)目啟動(dòng)
- 浙商證券:重視龍頭長(zhǎng)期價(jià)值 順周期下快遞業(yè)順豐控股有望率...
- ?關(guān)于開(kāi)展2023年遼寧省綠色建筑技術(shù)與產(chǎn)品推廣目錄征集工作...
- “夏茶采制”香飄兩岸 浙臺(tái)以茶為媒攜手促共富
- 鴻銘股份(301105.SZ):公司存在個(gè)別小機(jī)器銷(xiāo)售至南非的情況,...
排行
最近更新
- 拖拽下圖像就能生成視頻,中科大、微軟等DragNUWA屬實(shí)驚艷
- 加快推進(jìn)世界一流海洋港口建設(shè)!西海岸新區(qū)重點(diǎn)實(shí)施七大行動(dòng)2...
- 售價(jià)9.48/9.68萬(wàn)元起,菱勢(shì)黃金卡倉(cāng)柵/貨柜版上市
- 自8月26日起,濰坊公交集團(tuán)優(yōu)化調(diào)整5路公交線
- 中國(guó)與金磚成員間貿(mào)易猛增
- 一則消息帶崩整個(gè)板塊!兩大機(jī)場(chǎng)澄清后,國(guó)泰君安也辟謠了
- 走進(jìn)“家門(mén)口”的圖書(shū)館,感受濃濃書(shū)香
- realme真我GT5將發(fā)布 采用奇跡玻璃技術(shù)
- 科達(dá)自控上半年?duì)I收同比增長(zhǎng)19%:毛利率增加6.83個(gè)百分點(diǎn)
- 現(xiàn)代伊蘭特1.5L CVT GLS領(lǐng)先版售價(jià)9.98萬(wàn)
- 丹麥國(guó)防大臣:烏克蘭只能在本國(guó)境內(nèi)使用捐贈(zèng)的F-16戰(zhàn)機(jī),這...
- 湖南工業(yè)大學(xué)2023年新進(jìn)輔導(dǎo)員崗前培訓(xùn)開(kāi)班
- 奇瑞推出全新緊湊級(jí)SUV 11.69萬(wàn)-13.99萬(wàn)
- 紫金礦業(yè):收購(gòu)西藏朱諾銅礦權(quán)益
- 三部門(mén):合理增加對(duì)消費(fèi)者購(gòu)買(mǎi)汽車(chē)、家電、家居等產(chǎn)品的消費(fèi)...
- 通威股份:上半年凈利潤(rùn)同比增長(zhǎng)8.56% 擬合計(jì)200億元投建兩光伏項(xiàng)目
- 國(guó)產(chǎn)敞篷跑車(chē)MG Cyberster售價(jià)曝光:31.79萬(wàn)元起售
- 中際旭創(chuàng)獲深股通連續(xù)3日凈買(mǎi)入 累計(jì)凈買(mǎi)入5.52億元
- 中國(guó)國(guó)家公園建設(shè)中的“科技范”
- 民警化身電影大使,反詐宣傳進(jìn)影院
- 2023浙江寧波市奉化區(qū)紅果文體產(chǎn)業(yè)運(yùn)營(yíng)管理有限公司招聘工作...
- 律師找誰(shuí)寫(xiě)合伙合同協(xié)議書(shū)可以幫忙代寫(xiě)嗎
- 中南文化:公司目前影視業(yè)務(wù)不涉及短劇
- 2023年成人高考《歷史》必背考點(diǎn):明朝
- 08月21日國(guó)產(chǎn)丙烯腈為7800元
- 財(cái)報(bào)解讀:上半年凈利大漲230%,周黑鴨“贏”在門(mén)店擴(kuò)張加速
- 商務(wù)部等三部門(mén):合理增加對(duì)消費(fèi)者購(gòu)買(mǎi)汽車(chē)、家電、家居等產(chǎn)...
- 艾迪藥業(yè)(688488.SH):傅和亮擬辭去總裁及首席執(zhí)行官職務(wù)
- 寧夏銀川:七夕催熱“浪漫經(jīng)濟(jì)” 鮮花、餐飲開(kāi)啟預(yù)訂模式
- 三部門(mén):鼓勵(lì)開(kāi)發(fā)適合中小微商貿(mào)流通企業(yè)的專(zhuān)項(xiàng)信貸產(chǎn)品
今日要聞
- 08月21日國(guó)產(chǎn)丙烯腈為7800元
- 奇瑞推出全新緊湊級(jí)SUV 11.69萬(wàn)-13.99萬(wàn)
- 中央氣象臺(tái)8月21日10時(shí)繼續(xù)發(fā)布暴雨藍(lán)色預(yù)警
- 深圳一個(gè)最快獨(dú)角獸,150億
- 融創(chuàng)中國(guó)盤(pán)中跌破1港元
- 我的觀點(diǎn)如下翻譯成英語(yǔ)(我的觀點(diǎn)是用英語(yǔ)怎么說(shuō))
- 國(guó)泰基金出資5000萬(wàn)元自購(gòu)旗下股票型、混合型公募基金
- 狐貍小妖戰(zhàn)略發(fā)布會(huì)召開(kāi)在即 中國(guó)護(hù)膚如何邁進(jìn)精準(zhǔn)時(shí)代
- 國(guó)家發(fā)展改革委部署在防汛救災(zāi)和災(zāi)后恢復(fù)重建中大力實(shí)施以工代賑
- 湘菜館取名 湘菜館名字大全)