Sora誕生半年后,它的“挑戰(zhàn)者”紛至沓來(lái),連“等不及”又“追不上”的英偉達(dá)也親自下場(chǎng)。
迄今為止,Sora依舊只釋放小樣、未開(kāi)放使用,而快手可靈、智譜清影、Vidu已率先打開(kāi)體驗(yàn)大門(mén),走向大眾。
盡管“一鍵生成”的初體驗(yàn)稱不上完美,卻攪動(dòng)了內(nèi)容產(chǎn)業(yè)的一池春水。身邊不少微短劇、廣告、動(dòng)畫(huà)已經(jīng)開(kāi)始用上AI這個(gè)“效率搭子”。人工智能生成技術(shù),從前不久的文生圖,到如今的文生視頻、圖生視頻、視頻生成視頻,“AIGC宇宙”不斷擴(kuò)張。
AI,是華夏神話里的“神筆馬良”嗎?它能讓多少想象力、創(chuàng)造力活起來(lái)、動(dòng)起來(lái)?
“文生視頻”,如何“生”
“文生視頻是一顆重磅炸彈?!卑肽陙?lái),從大廠到獨(dú)角獸的Sora復(fù)現(xiàn)潮無(wú)一不在說(shuō)明產(chǎn)業(yè)界對(duì)“生成”的重視。
視頻生成,簡(jiǎn)言之是通過(guò)生成式人工智能技術(shù),將文本、圖片等多模態(tài)輸入,轉(zhuǎn)化為視頻信號(hào)。
當(dāng)前,視頻生成的技術(shù)路線主要有兩種。一種是擴(kuò)散模型,其中又分為兩類,一類是基于卷積神經(jīng)網(wǎng)絡(luò)的擴(kuò)散模型,如Meta的EmuVideo、騰訊等推出的VideoCrafter;一類是基于Transformer架構(gòu)的擴(kuò)散模型,如OpenAI的Sora、快手的可靈AI、生數(shù)科技的Vidu等。另一種是自回歸路線,如谷歌的VideoPoet、Phenaki等。
2024年7月26日,中國(guó)科技企業(yè)智譜AI面向全球用戶發(fā)布其自主研發(fā)的人工智能生成視頻模型清影(Ying)。圖為用戶登錄界面
目前,基于Transformer架構(gòu)的擴(kuò)散模型是視頻生成模型的主流選擇,也稱“DiT”(Di為Diffusion縮寫(xiě),T為T(mén)ransformer縮寫(xiě))。
文本“擴(kuò)散”為視頻?“擴(kuò)散在此指一種建模方式。”北京大學(xué)信息工程學(xué)院助理教授、博士生導(dǎo)師袁粒舉了一個(gè)生動(dòng)例子——
米開(kāi)朗琪羅在鑿刻著名的大衛(wèi)雕像時(shí),說(shuō)過(guò)這樣一句話:雕塑本來(lái)就在石頭里,我只是把不要的部分去掉。“這句話很形象地形容了‘?dāng)U散’這一建模過(guò)程。原始的純?cè)肼曇曨l好比未經(jīng)雕琢的石塊。如何敲打這個(gè)大石塊,敲除多余的部分,直到把它敲成輪廓清晰的‘大衛(wèi)’,這樣的方式就是‘?dāng)U散’?!痹Uf(shuō)。
袁粒進(jìn)一步解釋:“Transformer就是一個(gè)神經(jīng)網(wǎng)絡(luò),遵從‘規(guī)模規(guī)則’,執(zhí)行敲石塊的過(guò)程。它能處理輸入的時(shí)空信息,通過(guò)理解其內(nèi)部復(fù)雜關(guān)系來(lái)理解現(xiàn)實(shí)世界,使模型具備推理能力,既能捕捉視頻幀之間的細(xì)微聯(lián)系,也能確保視覺(jué)上的連貫、時(shí)間上的流暢?!?/p>
“效率搭子”,有多快
一只憨態(tài)可掬的北極熊被鬧鐘叫醒,背起行囊,乘坐直升機(jī)、轉(zhuǎn)乘高鐵、換乘出租車(chē)、登上輪船,跨越山河湖海、歷盡艱難險(xiǎn)阻,終于到達(dá)南極,與企鵝相會(huì)……
這部時(shí)長(zhǎng)1分半、名為《一路向南》的動(dòng)畫(huà)短片,由視頻生成模型Vidu完成。原本1個(gè)月的工作量,有了AI這個(gè)“效率搭子”的加入,僅用1周時(shí)間就制作出精良作品——效率是過(guò)去的4倍。
這讓北京電影節(jié)AIGC短片單元最佳影片得主、Ainimate Lab AI負(fù)責(zé)人陳劉芳心生感慨:視頻生成技術(shù),讓高水平動(dòng)畫(huà)不再是大廠才敢玩的“燒錢(qián)游戲”。
AI動(dòng)畫(huà)《一路向南》的創(chuàng)作團(tuán)隊(duì)僅由3人構(gòu)成:一名導(dǎo)演、一名故事版藝術(shù)家、一名AIGC技術(shù)應(yīng)用專家。而以傳統(tǒng)流程制作的話,需要20人。算下來(lái),僅制作成本就降低90%以上。
正如快手視覺(jué)生成和互動(dòng)中心負(fù)責(zé)人萬(wàn)鵬飛所言,視頻生成的本質(zhì)是從目標(biāo)分布中采樣計(jì)算得到像素。這種方式能以更低的成本,達(dá)到更高的內(nèi)容自由度。
進(jìn)入Vidu的視頻生成頁(yè)面,筆者也體驗(yàn)了一把“一鍵生成”的自由。上傳一張照片設(shè)置為“起始幀”或作為“參考的人物角色”,在對(duì)話框里輸入想要生成的場(chǎng)景的文字描繪,點(diǎn)擊“生成”,一條靈動(dòng)精彩的短視頻就自動(dòng)生成了。從進(jìn)入頁(yè)面到下載完畢,不足1分鐘。
將一張圖片發(fā)給國(guó)產(chǎn)視頻大模型Vidu,一段動(dòng)畫(huà)視頻隨即自動(dòng)生成。圖為視頻截圖
“‘人人成為設(shè)計(jì)師’‘人人成為導(dǎo)演’的時(shí)代將會(huì)到來(lái),就像當(dāng)年‘人人擁有麥克風(fēng)’一般。”智譜AI首席執(zhí)行官?gòu)堸i說(shuō)。
“世界模擬器”,有戲嗎
視頻生成,顛覆的僅僅是內(nèi)容產(chǎn)業(yè)嗎?這顯然不是OpenAI的初衷。“生成視頻”只是一道“開(kāi)胃菜”。
Sora誕生之前,OpenAI并未將其定位為AIGC的實(shí)現(xiàn)工具,而是復(fù)刻物理世界的“容器”——世界模擬器。這一容器里,運(yùn)行著真實(shí)世界的物理規(guī)律、環(huán)境行為、交互邏輯,恰似《黑客帝國(guó)》描繪的虛擬世界,沖擊著我們的想象與感官。
然而,物理世界是三維的,目前的Sora等模型還只是基于二維運(yùn)作,并非真實(shí)物理引擎,也就談不到深層次的物理世界模擬。
“多年來(lái),我一直表示,‘看到’世界即為‘理解’世界。但是現(xiàn)在我愿意將這個(gè)概念推進(jìn)一步,‘看到’不僅僅是為了‘理解’,而是為了‘做到’。”斯坦福大學(xué)講席教授李飛飛公開(kāi)表示,空間智能的底線是將“看到”和“做到”聯(lián)系在一起,有一天,AI將會(huì)做到這一點(diǎn)。
當(dāng)“看到”還不等于“做到”時(shí),人工智能的創(chuàng)造就不能停。最近,又有新的技術(shù)路線出現(xiàn)了。不同路線之間你追我趕,共同向前,推進(jìn)這個(gè)由向量與模型構(gòu)造的智能世界。
未來(lái)的“世界觀”,依舊是一道尚未揭曉的謎題。正如美國(guó)物理學(xué)家費(fèi)曼所說(shuō):“我不能創(chuàng)造一個(gè)我不理解的世界。”但這并不意味著,理解了一個(gè)世界,就一定能夠創(chuàng)造出一個(gè)世界。
此刻,依舊是顛覆到來(lái)的前夜。這就是為什么當(dāng)我們向技術(shù)探索者拋出關(guān)于未來(lái)的問(wèn)題時(shí),會(huì)得到截然不同的答案。也許“不確定”,正是這個(gè)時(shí)代的幸事。
半月談?dòng)浾撸簭埪?編輯:范鐘秀
責(zé)編:秦黛新 / 校對(duì):張子晴
原標(biāo)題《“文生視頻”離“AI生萬(wàn)物”有多遠(yuǎn)》