據(jù)了解,本聯(lián)合項目組中的騰訊混元大模型團隊,正在持續(xù)研究和探索多模態(tài)技術(shù)。

騰訊聯(lián)合清華、港科大推出圖生視頻大模型“Follow Your Click”:一鍵點,萬物動?

2024-03-15 18:51:59發(fā)布     來源:多知網(wǎng)    作者:Mint  

  多知網(wǎng)3月15日消息,騰訊聯(lián)合清華、港科大推出全新圖生視頻模型“Follow-Your-Click”,目前已經(jīng)上架 GitHub(代碼四月公開),同時還發(fā)表了一篇研究論文。

  

  這款圖生視頻模型主要功能包括局部動畫生成和多對象動畫,支持多種動作表達,如頭部調(diào)整、翅膀拍動等。

  Follow-Your-Click 可以通過用戶的點擊和簡短動作提示生成局部圖像動畫。

  

  用戶只需點擊對應(yīng)區(qū)域,加上少量提示詞,就可以讓圖片中原本靜態(tài)的區(qū)域動起來,一鍵轉(zhuǎn)換成視頻,比如讓物體微笑、跳舞或飄動。

  除了能夠控制單個對象的動畫,這個框架還支持同時對多個對象進行動畫處理,增加了動畫的復(fù)雜性和豐富性。用戶可以通過簡單的點擊和短語提示輕松地指定希望動畫化的區(qū)域和動作類型,無需復(fù)雜的操作或詳細描述。

  這款模型在帶來更加便捷的交互同時,也讓圖片“一鍵點,萬物動”成為現(xiàn)實。

  當(dāng)前圖生視頻大模型中,一般的生成方法不僅需要用戶在提示詞中描述運動區(qū)域,還需要提供運動指令的詳細描述,過程較為復(fù)雜。從生成的效果來看,現(xiàn)有圖像生成視頻技術(shù)在移動圖像的指定部分上缺乏控制,生成的視頻往往需要移動整個場景,而不是圖像上的某一個區(qū)域,精準(zhǔn)度和靈活性上有所欠缺。

  據(jù)了解,本聯(lián)合項目組中的騰訊混元大模型團隊,正在持續(xù)研究和探索多模態(tài)技術(shù)。

  另附:

  論文鏈接:[2403.08268] Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts

  主頁:Follow-Your-Click

  Github:GitHub - mayuelala/FollowYourClick: [arXiv 2024] Follow-Your-Click: This repo is the official implementation of "Follow-Your-Click: Open-domain Regional Image Animation via Short Prompts"