新京報(bào)貝殼財(cái)經(jīng)訊(記者羅亦丹)5月14日晚,阿里巴巴正式開源通義萬相Wan2.1-VACE,這是業(yè)界功能最全的視頻生成與編輯模型,單一模型可同時(shí)支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時(shí)長(zhǎng)延展等全系列基礎(chǔ)生成和編輯能力。本次共開源1.3B和14B兩個(gè)版本,其中1.3B版本可在消費(fèi)級(jí)顯卡運(yùn)行,開發(fā)者可在GitHub、Huggingface及魔搭社區(qū)下載體驗(yàn)。該模型還將逐步在通義萬相官網(wǎng)和阿里云百煉上線。



據(jù)介紹,Wan2.1-VACE基于通義萬相文生視頻模型研發(fā),同時(shí)創(chuàng)新性提出了全新的視頻條件單元VCU,它在輸入形態(tài)上統(tǒng)一了文生視頻、參考圖生視頻、視頻生視頻,基于局部區(qū)域的視頻生視頻4大類視頻生成和編輯任務(wù);同時(shí),Wan2.1-VACE還進(jìn)一步解決了多模態(tài)輸入的token序列化難題,將VCU輸入的幀序列進(jìn)行概念解耦,分開重構(gòu)成可變序列和不可變序列后進(jìn)行編碼。


Wan2.1-VACE支持全部主流輸入形式,涵蓋文本、圖像、視頻、Mask和控制信號(hào),可以實(shí)現(xiàn)角色一致性、布局、運(yùn)動(dòng)姿態(tài)和幅度等要素的控制。例如,Wan2.1-VACE可以基于物體參考圖或者視頻幀生成一段視頻,也可以通過抹除、局部擴(kuò)展等操作,對(duì)原有視頻進(jìn)行重新生成,該模型還可以通過深度圖、光流、布局、灰度、線稿等控制信號(hào)對(duì)視頻進(jìn)行編輯。


Wan2.1-VACE還支持任意基礎(chǔ)能力的自由組合,用戶無需針對(duì)特定功能訓(xùn)練一個(gè)新的專家模型,即可完成更復(fù)雜的任務(wù),極大地?cái)U(kuò)展了AI視頻生成的想象空間。例如,將圖片參考和主體重塑功能組合,可以實(shí)現(xiàn)視頻的物體替換;將圖片參考、首幀參考、背景擴(kuò)展和時(shí)長(zhǎng)延展功能,可以將一張豎版圖片變成橫版視頻,并且在其中加入?yún)⒖紙D片中的元素。


編輯 陳莉 校對(duì) 楊利