據(jù)了解,本聯(lián)合項目組中的騰訊混元大模型團隊,正在持續(xù)研究和探索多模態(tài)技術(shù)。
多知網(wǎng)3月15日消息,騰訊聯(lián)合清華、港科大推出全新圖生視頻模型“Follow-Your-Click”,目前已經(jīng)上架 GitHub(代碼四月公開),同時還發(fā)表了一篇研究論文。
這款圖生視頻模型主要功能包括局部動畫生成和多對象動畫,支持多種動作表達,如頭部調(diào)整、翅膀拍動等。
Follow-Your-Click 可以通過用戶的點擊和簡短動作提示生成局部圖像動畫。
用戶只需點擊對應(yīng)區(qū)域,加上少量提示詞,就可以讓圖片中原本靜態(tài)的區(qū)域動起來,一鍵轉(zhuǎn)換成視頻,比如讓物體微笑、跳舞或飄動。
除了能夠控制單個對象的動畫,這個框架還支持同時對多個對象進行動畫處理,增加了動畫的復(fù)雜性和豐富性。用戶可以通過簡單的點擊和短語提示輕松地指定希望動畫化的區(qū)域和動作類型,無需復(fù)雜的操作或詳細描述。
這款模型在帶來更加便捷的交互同時,也讓圖片“一鍵點,萬物動”成為現(xiàn)實。
當(dāng)前圖生視頻大模型中,一般的生成方法不僅需要用戶在提示詞中描述運動區(qū)域,還需要提供運動指令的詳細描述,過程較為復(fù)雜。從生成的效果來看,現(xiàn)有圖像生成視頻技術(shù)在移動圖像的指定部分上缺乏控制,生成的視頻往往需要移動整個場景,而不是圖像上的某一個區(qū)域,精準(zhǔn)度和靈活性上有所欠缺。
據(jù)了解,本聯(lián)合項目組中的騰訊混元大模型團隊,正在持續(xù)研究和探索多模態(tài)技術(shù)。
另附:
論文鏈接:[2403.08268] Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts
主頁:Follow-Your-Click
Github:GitHub - mayuelala/FollowYourClick: [arXiv 2024] Follow-Your-Click: This repo is the official implementation of "Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts"