春節(jié)后的第一周,美國(guó)人工智能公司OpenAI依舊是全球矚目的焦點(diǎn)。
此前在北京時(shí)間2月16日凌晨,OpenAI在官網(wǎng)宣布推出一個(gè)名為Sora的文本生成視頻模型,極大地拓展了AI在視頻內(nèi)容生成方面能力。相比此前已有的視頻生成模型,Sora在時(shí)長(zhǎng)和分辨率上大幅超越,強(qiáng)大的文本理解和細(xì)節(jié)生成能力更是引發(fā)全球關(guān)注,被視為AI界的新里程碑。
“完了,我可能要失業(yè)了。”隨著不斷地翻看由Sora生成且未經(jīng)修改的視頻,在廣告設(shè)計(jì)公司做視頻剪輯的李俊心中涌起一股不安,在看到一段段視頻精準(zhǔn)還原了提示文字的每一個(gè)細(xì)節(jié),他的職業(yè)危機(jī)感如潮水般涌來(lái)。
Sora的橫空出世讓不少傳統(tǒng)行業(yè)的從業(yè)者感到顛覆與重塑正在上演,首當(dāng)其沖的便是影視相關(guān)行業(yè)。“無(wú)人機(jī)視圖,海浪撞擊著大蘇爾的加雷點(diǎn)海灘崎嶇的懸崖.....這個(gè)景色捕捉了海岸的原始美景和太平洋海岸公路的崎嶇景觀。”與這段文字匹配的是一段Sora生成的高清視頻,盡管只有8秒,但已經(jīng)足夠讓李俊震撼不已。
Sora的“問(wèn)世”適逢中國(guó)春節(jié),順勢(shì)抓住了公眾閑暇時(shí)光與社交場(chǎng)景,并通過(guò)互聯(lián)網(wǎng)社交平臺(tái)擴(kuò)散、裂變,最終引發(fā)熱烈談?wù)摚?60創(chuàng)始人周鴻祎更是下場(chǎng)判斷,Sora意味著AGI的實(shí)現(xiàn)將從10年縮短到1年。與此同時(shí),圍繞Sora相關(guān)功能的知識(shí)付費(fèi)課程層出不窮,相關(guān)概念股成為龍年“開(kāi)門(mén)紅”行情的領(lǐng)頭羊,“掘金熱潮”不減。
OpenAI上一次這樣“出風(fēng)頭”是在2022年11月底,其開(kāi)發(fā)的ChatGPT點(diǎn)燃AI熱潮,掀起了整個(gè)2023年的人工智能淘金熱。那么,此次Sora的橫空出世,又將預(yù)示著什么?
跨越式突破
“Sora給人的震撼主要體現(xiàn)在其生成視頻的精細(xì)畫(huà)面已經(jīng)很接近現(xiàn)實(shí)世界,有些甚至到了難以區(qū)分真假的程度。”2月下旬,短視頻創(chuàng)作者夏廷對(duì)記者表示,Sora不僅提供了清晰、豐富的的視頻內(nèi)容,且其細(xì)節(jié)、光影和色彩等方面表現(xiàn)出色。
雖然在此之前視頻生成已經(jīng)是大模型領(lǐng)域最熱門(mén)的研究方向之一,谷歌、Meta、Runway、百度、字節(jié)跳動(dòng)等國(guó)內(nèi)外公司都在積極布局,但截至目前,市場(chǎng)上尚未出現(xiàn)能夠與Sora相抗衡的競(jìng)爭(zhēng)對(duì)手。Sora走紅后,視頻生成賽道的領(lǐng)先者Runway公司CEO克里斯托瓦爾·巴倫蘇埃拉在X平臺(tái)上發(fā)布了一個(gè)簡(jiǎn)短的宣言:“Game On(比賽開(kāi)始了)。”
根據(jù)OpenAI官方介紹,因使用Transformer架構(gòu),Sora具有極強(qiáng)的擴(kuò)展性,同時(shí)在基于過(guò)去對(duì)DALL·E和GPT的研究基礎(chǔ)構(gòu)建上,還利用了DALL·E 3的重述提示詞技術(shù),為視覺(jué)模型訓(xùn)練數(shù)據(jù)生成高描述性的標(biāo)注,該模型不僅能理解用戶提示詞中的物品,更能理解這些物品在真實(shí)世界的存在形式。
2021年1月份,OpenAI發(fā)布了DALL·E模型,它能從文字說(shuō)明中創(chuàng)建圖像,用于表達(dá)各種可由自然語(yǔ)言表達(dá)的概念。一年后,OpenAI發(fā)布DALL·E 2,相比第一代以4倍的分辨率生成更真實(shí)和準(zhǔn)確的圖像。2023年9月,OpenAI再度刷新,DALL·E 3與整合了ChatGPT,語(yǔ)言理解能力大幅提升,可以將用戶的想法轉(zhuǎn)換為非常精確的圖像。從文生圖模型的快速迭代來(lái)看,Sora的突然爆發(fā)并未偶然。
不過(guò),OpenAI也說(shuō)明了Sora的局限性:它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性,并且可能無(wú)法理解因果關(guān)系的具體實(shí)例。例如,一個(gè)人可能會(huì)咬一口餅干,但餅干可能沒(méi)有咬痕。同時(shí),該模型還可能混淆提示的空間細(xì)節(jié),例如,左右混淆,并且可能難以精確描述隨時(shí)間推移發(fā)生的事件,例如遵循特定的相機(jī)軌跡。
目前,Sora尚未開(kāi)放公測(cè),僅相關(guān)程序人員、安全測(cè)試人員以及OpenAI挑選的少量創(chuàng)作者和藝術(shù)家有體驗(yàn)權(quán)限。OpenAI稱,在Sora產(chǎn)品上線前將會(huì)進(jìn)行一系列的安全測(cè)試,包括進(jìn)行誤導(dǎo)性信息、仇恨內(nèi)容等對(duì)抗測(cè)試,構(gòu)建幫助識(shí)別誤導(dǎo)性內(nèi)容的工具,并制定安全規(guī)則等。
招商策略在研報(bào)中分析,“雖然OpenAI表示當(dāng)前Sora仍有弱點(diǎn),例如難以準(zhǔn)確模擬復(fù)雜場(chǎng)景中的物理現(xiàn)象,可能無(wú)法理解具體的因果關(guān)系,但從當(dāng)前展示的效果來(lái)看,Sora顯著領(lǐng)先于其他文生視頻模型,推動(dòng)AI視頻生成進(jìn)入了一個(gè)全新的時(shí)代。”
顛覆與重構(gòu)
和此前ChatGPT一樣,Sora一夜爆火后,隨之而來(lái)的便是其應(yīng)用領(lǐng)域會(huì)顛覆哪些行業(yè)的討論。
“Sora的出現(xiàn)將極大地改變視頻制作的方式和效率,為導(dǎo)演們帶來(lái)更多的創(chuàng)作可能性。”肖明是一家影視公司的編導(dǎo),此前主要拍攝傳記片,他對(duì)《國(guó)際金融報(bào)》記者表示,Sora能夠?qū)⑽谋局苯愚D(zhuǎn)換成高質(zhì)量的視頻,在某些場(chǎng)景下,拍攝條件可能受限或無(wú)法實(shí)現(xiàn),就能通過(guò)Sora生成相應(yīng)的視頻片段來(lái)彌補(bǔ)這些不足。
不過(guò)肖明也強(qiáng)調(diào),Sora暫時(shí)不會(huì)顛覆影視行業(yè),因?yàn)橐曨l是由模型生成的,而不是真實(shí)的演員和場(chǎng)景,可能缺乏真實(shí)性和情感共鳴,“畢竟影視行業(yè)的核心是劇本,劇本和創(chuàng)意還是得靠人。”
根據(jù)浙商證券分析,短期內(nèi),Sora及同類產(chǎn)品可大幅提升圖像和短視頻的制作效率,改變創(chuàng)意生產(chǎn)及營(yíng)銷(xiāo)工作流,提升短視頻產(chǎn)品生產(chǎn)力。對(duì)于業(yè)態(tài)更加復(fù)雜的長(zhǎng)視頻和游戲,受限于模型目前還無(wú)法很好理解因果關(guān)系和其他技術(shù)難點(diǎn),現(xiàn)階段或以提供美術(shù)靈感支持為主。
“從中長(zhǎng)期來(lái)看,Sora及同類產(chǎn)品將參與改變信息生產(chǎn)和分發(fā)兩大環(huán)節(jié)的進(jìn)程中,PGC(專業(yè)生產(chǎn)內(nèi)容)將廣泛采用AI工具輔助生產(chǎn),UGC(用戶生產(chǎn)內(nèi)容)將借助AI工具逐步替代PGC(專業(yè)生產(chǎn)內(nèi)容)。”浙商證券進(jìn)一步稱,“AI生成視頻工具的商業(yè)化將提速,目前Sora還未公布收費(fèi)標(biāo)準(zhǔn),參照之前部分文生視頻工具收費(fèi)情況,定價(jià)相對(duì)較高。鑒于Sora采用的世界模擬器技術(shù)路徑,邊際成本或有降低的可能。”
不過(guò)就實(shí)際情況而言,當(dāng)下AI視頻的落地還面臨多重不確定性和挑戰(zhàn)。尤其是版權(quán)歸屬問(wèn)題,AI生成的視頻內(nèi)容究竟歸屬于誰(shuí)?這既涉及到原創(chuàng)性的界定,也牽涉到多方利益的平衡。
“在實(shí)踐中,有關(guān)AIGC是否受著作權(quán)相關(guān)法律保護(hù)存在爭(zhēng)議。”上海市海華永泰律師事務(wù)所合伙人陳元熹向記者指出,基于Sora與基于Stable Diffusion、DALL·E等其他軟件生成內(nèi)容的保護(hù)是類似的。在我國(guó),《著作權(quán)法》第三條要求,作品應(yīng)當(dāng)是具有獨(dú)創(chuàng)性的智力成果。在使用過(guò)程中,使用者通過(guò)輸入提示詞,由Sora基于Diffusion與Transformer架構(gòu),直接生成不帶聲音的視頻內(nèi)容。在這個(gè)過(guò)程中,除了提示詞以外,使用者無(wú)法對(duì)Sora進(jìn)行干預(yù),這種視頻生成方式與傳統(tǒng)的視頻拍攝、剪輯等制作方法完全不同。
“我們保守認(rèn)為,這樣的視頻生成比較難以成為法律規(guī)定的作品。然而,北京互聯(lián)網(wǎng)法院在2023年11月的判決認(rèn)可了基于Stable Diffusion生成圖片的著作權(quán)。”陳元熹進(jìn)一步分析稱,“所以,Sora生成視頻涉及的著作權(quán)問(wèn)題,還需要未來(lái)更多案件的具體分析與法律討論。”
新一輪跟風(fēng)?
Sora橫空出世所激起的風(fēng)浪仿佛“昨日重現(xiàn)”。
在過(guò)去的2023年,ChatGPT引領(lǐng)了全球大模型的浪潮,掀起了全球范圍內(nèi)的AI軍備競(jìng)賽。國(guó)內(nèi)科技行業(yè)則形成了“百模大戰(zhàn)”,百度、阿里、騰訊、科大訊飛等科技大廠和眾多創(chuàng)業(yè)公司跑步入場(chǎng),通用大模型、垂直大模型等各類產(chǎn)品百花齊放;持續(xù)疲軟的手機(jī)行業(yè)也在全面擁抱AI大模型,華為、小米、OPPO、vivo等廠商都在致力于將大模型裝進(jìn)手機(jī)里面。
伴隨著Sora成為開(kāi)年以來(lái)最亮眼的“王炸”,“降維打擊”“新的GPT時(shí)刻”“人類愿賭服輸”等贊譽(yù)紛至沓來(lái),可以預(yù)見(jiàn)的是,國(guó)內(nèi)企業(yè)的跟進(jìn)風(fēng)潮將再度開(kāi)啟。
從春節(jié)后的首個(gè)交易日開(kāi)始,A股市場(chǎng)相關(guān)概念股就迎來(lái)漲停潮。記者注意到,與AI、算力、游戲、影視、廣告營(yíng)銷(xiāo)等行業(yè)相關(guān)的多家上市公司在投資者互動(dòng)平臺(tái)上對(duì)Sora所引發(fā)的熱潮進(jìn)行了回應(yīng)。例如,巨人網(wǎng)絡(luò)表示,公司關(guān)注到Sora在視頻生成領(lǐng)域取得的突破性進(jìn)展,公司同樣在積極布局多模態(tài)大模型領(lǐng)域,聚焦游戲垂直類創(chuàng)作場(chǎng)景;芒果超媒也表示,對(duì)以Sora為代表的新興AI文生視頻技術(shù)平臺(tái)保持密切關(guān)注。
文生視頻模型并不是剛出現(xiàn)的新鮮事物,在Sora問(wèn)世之前,Meta和谷歌也曾推出過(guò)文生視頻工具,創(chuàng)業(yè)公司中,Runway旗下視頻生成模型Gen-2和去年爆火的Pika旗下Pika 1.0在這一賽道都有亮眼的表現(xiàn)。
但這些產(chǎn)品在Sora面前顯得有些黯然失色,OpenAI自帶的光環(huán)是原因之一,更重要的原因在于視頻長(zhǎng)度、連貫性、畫(huà)質(zhì)、多角度鏡頭等多個(gè)方面的突破,以及對(duì)人類語(yǔ)言和真實(shí)世界的理解。
在對(duì)外發(fā)聲方面,相比上市公司,國(guó)內(nèi)的互聯(lián)網(wǎng)大廠們則顯得有些低調(diào)。有人說(shuō),Sora問(wèn)世之后,壓力給到國(guó)內(nèi)的科技巨頭,尤其是字節(jié)跳動(dòng),原因在于Sora未來(lái)會(huì)對(duì)短視頻行業(yè)帶來(lái)巨大沖擊,而作為全球短視頻巨頭,字節(jié)跳動(dòng)旗下視頻編輯工具剪映將面臨威脅。
盡管在AI方面起步較晚,但從去年以來(lái)的一系列調(diào)整動(dòng)作可以看出,字節(jié)跳動(dòng)正在“火力全開(kāi)”。就在Sora發(fā)布前一周,帶領(lǐng)團(tuán)隊(duì)從0到1推出抖音的張楠宣布辭去抖音集團(tuán)CEO一職,未來(lái)將把精力聚焦在剪映的發(fā)展上,張楠在朋友圈表示“跟著這個(gè)AI時(shí)代一起成長(zhǎng)”,所透露的信號(hào)不言而喻。
值得關(guān)注的是,2月20日,有消息稱,字節(jié)跳動(dòng)推出了一款“中文版Sora”——Boximator,它可以通過(guò)文本精準(zhǔn)控制生成視頻中人物或物體的動(dòng)作。對(duì)此,字節(jié)跳動(dòng)相關(guān)人士表示,Boximator目前還無(wú)法作為完善的產(chǎn)品落地,距離國(guó)外領(lǐng)先的視頻生成模型在畫(huà)面質(zhì)量、保真率、視頻時(shí)長(zhǎng)等方面還有很大差距。
這也意味著,字節(jié)跳動(dòng)能否突圍,依舊任重道遠(yuǎn),而這或許也是國(guó)內(nèi)眾多科技公司都需要摸索和解答的問(wèn)題。
(應(yīng)受訪者要求,李俊、夏廷、肖明均為化名)
來(lái)源:國(guó)際金融報(bào) 作者:馬云飛 蔡淑敏 秦銘蔚