新京報(bào)貝殼財(cái)經(jīng)訊（記者羅亦丹）5月14日晚，阿里巴巴正式開源通義萬相Wan2.1-VACE，這是業(yè)界功能最全的視頻生成與編輯模型，單一模型可同時(shí)支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時(shí)長(zhǎng)延展等全系列基礎(chǔ)生成和編輯能力。本次共開源1.3B和14B兩個(gè)版本，其中1.3B版本可在消費(fèi)級(jí)顯卡運(yùn)行，開發(fā)者可在GitHub、Huggingface及魔搭社區(qū)下載體驗(yàn)。該模型還將逐步在通義萬相官網(wǎng)和阿里云百煉上線。

據(jù)介紹，Wan2.1-VACE基于通義萬相文生視頻模型研發(fā)，同時(shí)創(chuàng)新性提出了全新的視頻條件單元VCU，它在輸入形態(tài)上統(tǒng)一了文生視頻、參考圖生視頻、視頻生視頻，基于局部區(qū)域的視頻生視頻4大類視頻生成和編輯任務(wù)；同時(shí)，Wan2.1-VACE還進(jìn)一步解決了多模態(tài)輸入的token序列化難題，將VCU輸入的幀序列進(jìn)行概念解耦，分開重構(gòu)成可變序列和不可變序列后進(jìn)行編碼。

Wan2.1-VACE支持全部主流輸入形式，涵蓋文本、圖像、視頻、Mask和控制信號(hào)，可以實(shí)現(xiàn)角色一致性、布局、運(yùn)動(dòng)姿態(tài)和幅度等要素的控制。例如，Wan2.1-VACE可以基于物體參考圖或者視頻幀生成一段視頻，也可以通過抹除、局部擴(kuò)展等操作，對(duì)原有視頻進(jìn)行重新生成，該模型還可以通過深度圖、光流、布局、灰度、線稿等控制信號(hào)對(duì)視頻進(jìn)行編輯。

Wan2.1-VACE還支持任意基礎(chǔ)能力的自由組合，用戶無需針對(duì)特定功能訓(xùn)練一個(gè)新的專家模型，即可完成更復(fù)雜的任務(wù)，極大地?cái)U(kuò)展了AI視頻生成的想象空間。例如，將圖片參考和主體重塑功能組合，可以實(shí)現(xiàn)視頻的物體替換；將圖片參考、首幀參考、背景擴(kuò)展和時(shí)長(zhǎng)延展功能，可以將一張豎版圖片變成橫版視頻，并且在其中加入?yún)⒖紙D片中的元素。

編輯陳莉校對(duì) 楊利

點(diǎn)贊 +1

微博

微信

我要評(píng)論

直播

直播中

2025校歌會(huì)暨第11屆北京沙河高教園區(qū)文化交流月開幕
8268人參與

阿里開源新版通義萬相，單一模型全面支持視頻生成和編輯

我要評(píng)論

直播

熱點(diǎn)

最新

熱議