“AI視頻在學(xué)習(xí)領(lǐng)域的應(yīng)用才剛剛開(kāi)始?!?/p>
來(lái)源|多知
作者|王上
只需點(diǎn)擊一下按鈕,AI就能將文字或者圖片轉(zhuǎn)化為視頻,這已經(jīng)在學(xué)習(xí)場(chǎng)景落地,且成為一個(gè)重要的創(chuàng)業(yè)方向。
如AI視頻生成平臺(tái)Mootion、斯坦福大學(xué)生們創(chuàng)辦的VideoTutor、谷歌旗下的Sparkify、佛羅里達(dá)大學(xué)的初創(chuàng)公司Knowlify、法國(guó)專注于兒童和家庭娛樂(lè)的AI媒體公司Animaj以及中國(guó)初創(chuàng)公司北京波波熊科技旗下TalkingSpark……都切入了學(xué)習(xí)場(chǎng)景。
在“AI視頻”產(chǎn)品的幫助下,知識(shí)以更直觀、更個(gè)性化的視頻形式呈現(xiàn),更加生動(dòng)、有趣。
A視頻可以講解知識(shí)、講解題目、輸出故事、輸出概念等,不過(guò),各家在切入點(diǎn)、定位上、功能上及底層技術(shù)上有一些差別。
多知獲悉,Mootion最近獲得了源碼資本、創(chuàng)新工場(chǎng)等新一輪投資,其已經(jīng)有200萬(wàn)注冊(cè)用戶,年化收入達(dá)到了100萬(wàn)美元。當(dāng)前,Mootion主要用于社交媒體博主視頻創(chuàng)作和教育工作者授課。阿聯(lián)酋、沙特、阿曼等海灣國(guó)家的教育工作者會(huì)用Mootion生成教學(xué)視頻,比如生成雙語(yǔ)對(duì)話視頻。
可以看到,在通用視頻大模型快速狂飆之外,一部分AI視頻產(chǎn)品進(jìn)入到垂直場(chǎng)景,試圖解決普通人在視頻創(chuàng)作和學(xué)習(xí)方面的難題。
多個(gè)從業(yè)者告訴多知,AI視頻在學(xué)習(xí)領(lǐng)域的應(yīng)用才剛剛開(kāi)始,基礎(chǔ)性技術(shù)障礙已基本攻克,當(dāng)前需要關(guān)注特定場(chǎng)景的適配性,更多需要的是工程上的優(yōu)化與打磨。
01
AI視頻落地教育場(chǎng)景
聚焦AI視頻的產(chǎn)品愈發(fā)多了起來(lái),且受到了教育用戶的關(guān)注。
最近,Mootion以口碑傳播的方式在阿拉伯世界火了,在阿曼,有近3萬(wàn)名老師用來(lái)制作視頻,從而更好地教英語(yǔ)、歷史和科學(xué)。
王詠剛為Mootion創(chuàng)始人、CEO,他曾是創(chuàng)新工場(chǎng)AI工程院執(zhí)行院長(zhǎng),也是人工智能與軟件工程領(lǐng)域?qū)<?,曾?dān)任谷歌主任工程師和高級(jí)技術(shù)經(jīng)理,他于2022年底啟動(dòng)了Mootion項(xiàng)目;童超為Mootion聯(lián)合創(chuàng)始人兼首席產(chǎn)品官,曾任360人工智能研究院產(chǎn)品及對(duì)外合作負(fù)責(zé)人。
在Mootion,戶只要輸入一句話,AI就會(huì)自動(dòng)以導(dǎo)演的角色構(gòu)思,編劇的角色制作腳本,動(dòng)畫師的角色制作分鏡,然后剪輯師的身份進(jìn)行剪輯,最后給到用戶一個(gè)故事、畫面、聲音都完整的視頻作品。
Mootion創(chuàng)始人王詠剛告訴多知:“我們一開(kāi)始預(yù)設(shè)的是Social media博主做Faceless講解或故事視頻這個(gè)場(chǎng)景,后來(lái)推廣時(shí),自然而然進(jìn)入了教育領(lǐng)域。目前,Mootion用戶以social media博主為主,教育用戶約20%。”
Mootion最初全球幾個(gè)區(qū)域進(jìn)行了推廣,其中,在阿拉伯語(yǔ)的國(guó)家以口碑傳播的方式廣為人知。后來(lái),Mootion調(diào)研得知,教師授課使用Mootion生成對(duì)話視頻,是因?yàn)楫?dāng)?shù)乩蠋熃逃⒄Z(yǔ)時(shí)除了教材之外,其他資料匱乏。
大洋彼岸,最近,來(lái)自美國(guó)的AI視頻講解產(chǎn)品Knowlify獲得了創(chuàng)業(yè)加速器Y Combinator 的支持,今年夏天,該公司將從美國(guó)東南部佛羅里達(dá)州遷往美國(guó)北部的舊金山。
Knowlify 是由佛羅里達(dá)大學(xué)的學(xué)生Ritvik Varada 、Ritam Rana、Arjun Talati和Jonathan Maynard共同創(chuàng)立的。該產(chǎn)品正將AI與故事講述相結(jié)合,能在幾秒鐘內(nèi)將任何材料、筆記或 PDF 文件轉(zhuǎn)化為類似可汗學(xué)院風(fēng)格的視頻。這可以用于學(xué)習(xí)平臺(tái)、大學(xué)和入職培訓(xùn)團(tuán)隊(duì),旨在讓學(xué)習(xí)變得更直觀、更吸引人、更易獲取。
Knowlify既可以to C——學(xué)生可以直接用來(lái)學(xué)習(xí),獲得個(gè)性化的學(xué)習(xí);也可以to B———學(xué)校、教育培訓(xùn)或者企業(yè)培訓(xùn)可以使用。
不過(guò),多知發(fā)現(xiàn),目前Knowlify還不能直接使用,需要加入等候名單。
此前,多知報(bào)道過(guò)斯坦福大學(xué)生們創(chuàng)辦的VideoTutor,由是留學(xué)生kai與斯坦福大學(xué)校友Nick和Jovan(毛靖文)等人創(chuàng)辦,這是專門針對(duì)K12階段開(kāi)發(fā)的教育AI工具,一句話即可生成個(gè)人專屬教學(xué)/講解視頻。
VideoTutor的愿景是讓每個(gè)人都擁有自己專屬的AI導(dǎo)師,改變學(xué)習(xí)方式。同樣,VideoTutor既面向?qū)W生、家長(zhǎng)、老師等C端用戶,也面向?qū)W校、教育機(jī)構(gòu)等企業(yè)級(jí)用戶。
VideoTutor是從數(shù)學(xué)、物理等理科科目切入,其所生成的視頻還原了線下老師講課的場(chǎng)景,有動(dòng)態(tài)的圖形圖表,還有清晰地語(yǔ)音講解,還有文字板書,語(yǔ)言中文、英文等可以任意選擇。
目前,VideoTutor已經(jīng)開(kāi)放使用,其正式上線一周即產(chǎn)生了近2萬(wàn)的講解視頻,其可視化的方式對(duì)于理科學(xué)習(xí)很有幫助。
從VideoTutor來(lái)看,其背后有AI編程工具、大模型、數(shù)學(xué)動(dòng)畫引擎,創(chuàng)始人Kai曾告訴多知,其最大的突破是解決了元素重疊和復(fù)雜動(dòng)畫渲染的問(wèn)題,其視頻流暢,講解自然。
此前,多知還曾介紹過(guò)同樣由斯坦福團(tuán)隊(duì)研發(fā)的AI教育工具Gatekeep,也可以一句話生成教學(xué)視頻,不過(guò),該產(chǎn)品已暫停更新。
多知還發(fā)現(xiàn),谷歌也推出了可以生成教育視頻的實(shí)驗(yàn)性產(chǎn)品Sparkify,它可以生成用戶想要的科普視頻,這種輕松有趣的方式比較適合低幼的小朋友們學(xué)習(xí)一些常識(shí)或者通用的知識(shí)以及百科等,滿足他們的好奇心。
不過(guò),Sparkify現(xiàn)在只有視頻demo,用戶使用需要加入等候名單,其產(chǎn)品定位和功能暫未可知。
最近,總部在倫敦和巴黎的Animaj公司融資8500萬(wàn)美元,該公司借助AI將部分動(dòng)畫制作流程自動(dòng)化了,并通過(guò)AI生產(chǎn)與平臺(tái)原生內(nèi)容開(kāi)發(fā)相結(jié)合的混合模式,將兒童IP轉(zhuǎn)變?yōu)槿蛐?、多格式特許經(jīng)營(yíng)權(quán)。
Animaj收購(gòu)了多個(gè)數(shù)字IP,其中,2023年6月,Animaj接手西班牙經(jīng)典動(dòng)畫《小P優(yōu)優(yōu)》 (Pocoyo ),該劇以其由斯蒂芬·弗萊配音的藍(lán)衣小男孩而聞名。該動(dòng)畫片是寓教于樂(lè)的形式,結(jié)合“歡笑幽默”與“探索學(xué)習(xí)”,通過(guò)日常游戲引導(dǎo)兒童認(rèn)知顏色、形狀、數(shù)學(xué)等基礎(chǔ)知識(shí),并融入英語(yǔ)詞匯教學(xué)。
多知還了解到,波波熊科技公司也正在研發(fā)AI視頻產(chǎn)品TalkingSpark,此前其波波熊學(xué)伴AI工具是圖文的方式生成百科類的只是文章,而今,TalkingSpark希望為視頻領(lǐng)域或者學(xué)習(xí)領(lǐng)域帶來(lái)視頻解決方案。波波熊創(chuàng)始人劉宇龍告訴多知:“我們通過(guò)將復(fù)雜的制作流程交由 AI 處理,它將創(chuàng)作者從繁瑣的技術(shù)束縛中解放出來(lái),使創(chuàng)作者能夠?qū)W⒂趧?chuàng)意的核心。”
針對(duì)教育場(chǎng)景,TalkingSpark希望可以幫助教師將復(fù)雜的歷史事件(如古羅馬的衰落)或抽象的科學(xué)概念(如人工智能的工作原理)轉(zhuǎn)化為生動(dòng)的影像教材。
可以看到,目前已經(jīng)有一個(gè)非常明顯的趨勢(shì),AI視頻開(kāi)始在教育領(lǐng)域有所應(yīng)用。
自Sora出現(xiàn)之時(shí),教育行業(yè)普遍認(rèn)為,未來(lái)AI視頻的成熟應(yīng)用將對(duì)教育行業(yè)起到重大變革作用。剛剛一年半的時(shí)間,AI視頻技術(shù)突飛猛進(jìn),垂直細(xì)分場(chǎng)景也有了更多可能性。
一個(gè)大背景是,這幾年,視頻逐漸成為了媒介的主流,同時(shí),大模型到來(lái)后,視頻生產(chǎn)端也在革新。
2025年,國(guó)內(nèi)外廠商如OpenAI(Sora)、谷歌(Veo 3)、快手(可靈AI)、阿里(通義萬(wàn)相)等視頻大模型競(jìng)相推出高性能模型,在視頻時(shí)長(zhǎng)、真實(shí)感、多模態(tài)融合(如音頻同步)等方面取得突破,給應(yīng)用層帶來(lái)了巨大的機(jī)會(huì)。
另一方面如愛(ài)詩(shī)科技旗下的拍我AI(PixVerse)切入到細(xì)分場(chǎng)景,用戶上傳一張照片即可一鍵生成短視頻,可用于娛樂(lè)、營(yíng)銷、電商、私域運(yùn)營(yíng)內(nèi)容等場(chǎng)景。而Mootion、VideoTutor、Sparkify、Knowlify等產(chǎn)品可以應(yīng)用于學(xué)習(xí)場(chǎng)景。
值得注意的是,在垂類場(chǎng)景,比如在嚴(yán)肅學(xué)習(xí)方面,有很強(qiáng)的Know-how,通用視頻大模型還不足以完全解決問(wèn)題,這也是垂類場(chǎng)景AI視頻的價(jià)值所在。
當(dāng)下,這些新興的AI視頻工具均可以生成學(xué)習(xí)類的視頻或者講解視頻,降低制作成本和時(shí)間,并增強(qiáng)學(xué)習(xí)的趣味性。未來(lái),還有望加入虛擬老師的講解和個(gè)性化的互動(dòng)。
02
工程優(yōu)化還需持續(xù)改進(jìn)
各家在底層邏輯和技術(shù)上有一些區(qū)別。
從切入點(diǎn)來(lái)看,Mootion、Animaj以及TalkingSpark并非是從教育場(chǎng)景切入的,而VideoTutor、Knowlify明確是針對(duì)K12群體,Sparkfiy也提到是面向教育場(chǎng)景。
從功能上來(lái)看,Mootion將電影制作流程自動(dòng)化了,還提供了各個(gè)場(chǎng)景的模版,用戶只要給出一句話即可快速生成一段兩分鐘以內(nèi)的視頻。
用Mootion生成視頻大致可分為三步:第一,輸?提示詞,生成“故事板”;第二,系統(tǒng)對(duì)每個(gè)場(chǎng)景進(jìn)?具體調(diào)整,如可選擇字幕、?樂(lè)、配音或特效等;第三,視頻自動(dòng)合成并輸出完整視頻。
這背后涉及從構(gòu)思到腳本到分鏡到運(yùn)鏡到剪輯全流程,最終給到用戶一個(gè)完整的音畫同步的視頻片段。
而VideoTutor和Knowlify也是一句話生成視頻,但更偏向于用圖文并茂的視頻方式來(lái)講解一個(gè)知識(shí)點(diǎn)或講解一道題,跟秘塔的“今天學(xué)點(diǎn)啥”有類似之處,像PPT的視頻化,目前幾乎不涉及分鏡頭和運(yùn)鏡。
Sparkify目前看不到具體功能,看起來(lái)有分鏡頭和運(yùn)鏡,所涉及的教育場(chǎng)景看起來(lái)多元化,但更偏向科普。
總體而言,VideoTutor和Knowlify看起來(lái)比較偏理科問(wèn)題的講解,優(yōu)勢(shì)在于可視化且動(dòng)態(tài)的圖表,而Mootion、Animaj、Sparkify、TalkingSpark以及則傾向于文科類或者創(chuàng)意類的視頻輸出,比較考驗(yàn)打磨底層專業(yè)級(jí)的視頻工作流。
值得注意的是,這些AI視頻產(chǎn)品生成的產(chǎn)品都可以公開(kāi)發(fā)表在平臺(tái)上,用戶可以直接拿來(lái)學(xué)習(xí),有點(diǎn)像“知識(shí)版的抖音”。
Animaj則有更大的差異化:
在技術(shù)層面,Animaj開(kāi)發(fā)了專有的GenAI制作工具,并利用數(shù)據(jù)驅(qū)動(dòng)的洞察力,通過(guò)AI實(shí)現(xiàn)動(dòng)畫流程的自動(dòng)化。該流程可加快制作速度、降低成本,并使用基于人工智能的“草圖到姿勢(shì)”預(yù)測(cè)和“中間運(yùn)動(dòng)”層來(lái)幫助保持動(dòng)畫的藝術(shù)品質(zhì)。同時(shí),保留每個(gè)角色獨(dú)特的風(fēng)格和基調(diào)。
在業(yè)務(wù)層面,Animaj的目標(biāo)是希望收購(gòu)國(guó)際IP并將其轉(zhuǎn)化為全球特許經(jīng)營(yíng)權(quán),擴(kuò)大兒童IP的延展性。Animaj 的首席商務(wù)官 Gregory Dray 介紹,“獨(dú)立工作室和創(chuàng)作者開(kāi)發(fā)了大量?jī)和?IP,但這些 IP 的潛力尚未充分發(fā)揮。我們希望采用現(xiàn)代化、平臺(tái)原生的方式,在不損害其創(chuàng)意 DNA 的情況下,在全球范圍內(nèi)推廣這些品牌。”
不論是哪種形式的產(chǎn)品,在針對(duì)教育場(chǎng)景都需要更強(qiáng)的準(zhǔn)確性和嚴(yán)謹(jǐn)性。目前來(lái)看,大部分AI視頻產(chǎn)品在一致性和細(xì)節(jié)方面仍有待提高。
有用戶提到,VideoTutor生成的視頻對(duì)于數(shù)學(xué)問(wèn)題理解起來(lái)確實(shí)直觀,但是,在復(fù)雜問(wèn)題上依然會(huì)有bug,或者生成的視頻有線條鋸齒。
有從業(yè)者發(fā)現(xiàn),Sparkify視頻定位暫未可知,看起來(lái)很多是給孩子科普用的,但腳本中有不少術(shù)語(yǔ),這對(duì)于孩子來(lái)說(shuō)理解起來(lái)困難。
劉宇龍告訴多知:“目前AI視頻中會(huì)有一些和現(xiàn)實(shí)不符的錯(cuò)誤,這是整個(gè)行業(yè)面臨的問(wèn)題。”
Mootion已經(jīng)深入到教育場(chǎng)景之中,達(dá)到了可交付的水平,但在多知體驗(yàn)的過(guò)程中發(fā)現(xiàn),目前Mootion暫時(shí)以插畫短視頻為主,也有些微bug,比如會(huì)出現(xiàn)角色形象不一致的情況。
王詠剛亦坦言Mootion還沒(méi)有及格,但他對(duì)未來(lái)有信心,他在接受硅星人Pro訪談時(shí)提到,“如果我們不相信AI能從今天的50分,最終進(jìn)化到80分甚至100分,今天99%的AI創(chuàng)業(yè)公司也都不要做了。”
值得一提的是,多知發(fā)現(xiàn),Mootion對(duì)教育場(chǎng)景進(jìn)行了細(xì)化,比如有雙語(yǔ)故事、雙語(yǔ)對(duì)話、歷史啟蒙、兒童科普、睡前故事、60秒傳記、名人名言等模版。
從產(chǎn)品延展性來(lái)看,VideoTutor和Knowlify也會(huì)向文科方向演化,但最終目標(biāo)或是AI老師,Mootion這類產(chǎn)品的場(chǎng)景則會(huì)更加多元,有望應(yīng)用于廣告營(yíng)銷、電影、動(dòng)畫等領(lǐng)域。
總而言之,視頻輸出更穩(wěn)定、更流暢,甚至更準(zhǔn)確,這是AI視頻產(chǎn)品共同努力的方向。
值得注意的是,投資方的要求在提高,他們?cè)趪?yán)格篩選產(chǎn)品,更傾向于有高技術(shù)壁壘或者產(chǎn)品打磨得更完美的產(chǎn)品。
有投資人告訴多知:“80分的產(chǎn)品的溢價(jià)能力正逐步減弱,創(chuàng)業(yè)者需要把產(chǎn)品打磨到95分,很多產(chǎn)品背后有許多細(xì)節(jié)需要打磨。”
這意味著垂類的AI視頻產(chǎn)品一方面在工程優(yōu)化方面更為突出;一方面,需要在差異化路徑上更具備獨(dú)特性,找到真正的用戶需求。
相關(guān)閱讀:
獨(dú)家對(duì)話斯坦福00后創(chuàng)業(yè)者:VideoTutor如何用生成式視頻重構(gòu)學(xué)習(xí)
谷歌放大招!教育科技有了自己的“抖音”?
兒童和家庭娛樂(lè)AI公司Animaj融資8500萬(wàn)美元,將AI用于動(dòng)畫制作流程
一本書、一篇文章直接變視頻課程!秘塔科技推出“今天學(xué)點(diǎn)啥”