OpenAI發(fā)布Sora的當天,綠洲資本董事總經(jīng)理胡哲人正在老家陪家人過春節(jié)假期。看到新聞之后,他第一時間到OpenAI官網(wǎng)查看了Sora的資料。“看得越多,感受到的沖擊和震撼就越大。”
過去一年,胡哲人幾乎把AIGC領(lǐng)域文生圖、文生視頻的項目看了個遍,對Runway、Pika等海外公司的動態(tài)盯得也比較緊。但看到Sora的視頻演示片段,他還是有一種完全意想不到的感覺。
很多AI投資人的反應和他類似。在ChatGPT出現(xiàn)之后,他們就一直在討論文生視頻的技術(shù)以及商用價值。但按他們的評估,距離技術(shù)成熟達到商用水平至少需要兩年,沒人預料到進展這么快。
“視頻demo片段會不會是假的?”
包括胡哲人在內(nèi)的多位投資人看完Sora發(fā)布的新聞之后,都產(chǎn)生了類似的懷疑。
理由是OpenAI公司前段時間遭遇了創(chuàng)始人被驅(qū)逐等諸多風波,現(xiàn)在為了抬高估值繼續(xù)融資,它急需放出一個吸引眼球的東西。
胡哲人的懷疑則來自于OpenAI并沒有把Sora開放,絕大部分人都無法使用,只能看他們放出的演示。作為每年在國內(nèi)看大量項目的投資人,直覺告訴他,這個東西沒有像ChatGPT一樣成為一個人人可用的產(chǎn)品,只能說明它還不成熟。
他立刻和自己在上海交大的直系師弟進行了溝通,對方是非常知名的人工智能科學家。經(jīng)過雙方交流,再結(jié)合OpenAI官網(wǎng)產(chǎn)品信息介紹和技術(shù)報告,胡哲人基本可以確認OpenAI的Sora不是忽悠。
他仍然想得到更確切的信息,最終輾轉(zhuǎn)找到了在美國的朋友得到了Sora的內(nèi)測機會。“我現(xiàn)在比較確認Sora是有真材實料的,而不是一個只為了宣傳的純市場行為。”
怎么會這么快?
在Google發(fā)布Gemini 1.5的當天,OpenAI放出了Sora,徹底打壓了前者的熱度。
在正式發(fā)布之后,OpenAI相關(guān)團隊成員便不斷在社交平臺X上放出Sora的演示。它能根據(jù)用戶的文字提示,生成一段從細節(jié)精度、多樣性到對物理規(guī)律的理解上都令人驚嘆的視頻。
這些內(nèi)容被集合推送至OpenAI的TikTok賬號上,短短5天內(nèi)便獲得了51.3萬次贊,粉絲數(shù)也漲至10.6萬。
除了演示視頻,OpenAI還放出了兩份文件,一份是上線聲明,一份是技術(shù)報告。不過,自去年多模態(tài)大模型GPT-4問世之后,OpenAI官方釋出的報告愈發(fā)精簡,不再把細節(jié)公之于眾。
比如這次就只字未提與模型架構(gòu)、數(shù)據(jù)規(guī)模、訓練成本等相關(guān)的重點議題。外界只能結(jié)合報告,并通過已有的視頻做各種技術(shù)推演。
在深入這一領(lǐng)域的研究者看來,Sora在關(guān)鍵指標上碾壓了目前市面上最好的文生視頻產(chǎn)品們。
研究員LiJun Yu目前在參與Google的VideoPoet項目,它是Google唯一有望和Sora形成競爭的產(chǎn)品。他在播客節(jié)目OnBoard!上表示,VideoPoet在生成視頻時長和分辨率這兩點都不及Sora, “我們的時長在2秒到5秒之間,很難一下子做到60秒。”
這是極大的差距。一個視頻從幾秒到一分鐘,不是單純時間長度的升級,而是數(shù)據(jù)量、數(shù)據(jù)復雜度以及構(gòu)建視頻空間連貫性、一致性這些信息的指數(shù)級增加。
目前,業(yè)界普遍猜測Sora的成功延續(xù)了OpenAI的Scaling law法則,即通過海量的數(shù)據(jù),大量的算力,再加上大參數(shù)模型,最終“大力出奇跡”。
出門問問創(chuàng)始人李志飛認為,Sora很可能是訓練時將OpenAI的大語言模型LLM作為起點,然后再加入視頻的模態(tài)繼續(xù)訓練。“Sora團隊只有13人,肯定是大規(guī)模復用了大語言模型的東西。”云啟資本合伙人陳昱表示,其在2021年底天使輪投資了多模態(tài)基礎模型公司MiniMax。
OpenAI似乎短期內(nèi)不會向大眾開放Sora。除了在社交平臺上與CEO Sam Altman互動,外界并不能直接參與到Sora內(nèi)測中去。OpenAI自己解釋稱,技術(shù)仍存在一些缺陷,包括一些空間問題。
不過,這并不妨礙它成為現(xiàn)在世界上最強的文生視頻產(chǎn)品。OpenAI的技術(shù)報告也在標題上赫然指出,Sora這種視頻生成模型是「世界的模擬器」。
“是不是又要換方向了?”
同樣經(jīng)歷了Sora帶來的震撼之后,一批應用層AI創(chuàng)業(yè)者開始坐不住了。
“是不是又要換方向了?”一位文生視頻公司的創(chuàng)始人向界面新聞表達了他的挫敗感。
目前,國內(nèi)有100多家專門做AI文生圖和AI文生視頻的公司。去年下半年,Runway一些源代碼釋出,國內(nèi)還出現(xiàn)了一批專門使用Runway做文生視頻的公司。
因為ChatGPT的走紅帶火了整個AIGC賽道,投資機構(gòu)也非常傾向于投資文生圖和文生視頻類公司,因為這類公司的產(chǎn)品和服務能夠很快出來,做出來的產(chǎn)品也比較酷炫。
“就像炒股,文生視頻是非常火爆的題材,去年下半年新入場的初創(chuàng)算是追到了高點,沒想到突然又出來Sora,可能有一批你聽都沒有聽過的公司直接就要消失了。”波形智能首席產(chǎn)品官萬磊表示。
萬磊太熟悉這種感覺了,從去年年初創(chuàng)業(yè)以來,他看到了一批又一批AI創(chuàng)業(yè)公司因為GPT版本的升級迭代而死掉。
他自己也是典型案例:最開始,萬磊做了一個AI英語口語培訓應用,主打的是用戶可以選擇不同性格的英語老師來對話練習,分析自己的語法問題。當時這是一個非常新鮮的創(chuàng)意,幾乎沒有人能模仿。但當GPT-3.5出來之后,大批競爭對手涌現(xiàn),OpenAI的升級讓訓練難度大幅降低。而GPT-4發(fā)布之后,這個產(chǎn)品徹底喪失了競爭力,用戶可以直接和GPT語音對話,人物角色訓練只需要短短幾句話就能完成。
同樣,去年上半年還涌現(xiàn)一批AI輔助視頻創(chuàng)作的公司,但并不像Sora這么智能,還需要素材庫的輔助。在嘉程資本創(chuàng)始合伙人李黎看來,Sora把視頻素材庫類的公司全部都顛覆掉了,這個方向的公司,她所在的機構(gòu)也不會再投。
但經(jīng)歷了去年一波又一波的技術(shù)迭代之后,很多AI創(chuàng)業(yè)者和投資人對新技術(shù)帶來的創(chuàng)業(yè)公司倒閉潮已見怪不怪。在他們看來,AI創(chuàng)業(yè)就是在這種技術(shù)爆炸過程中摩擦成長的。
“Sora的出現(xiàn)對國內(nèi)的AI創(chuàng)業(yè)者也不是壞事。如果你對自己的創(chuàng)業(yè)項目還有期待的話,看到Sora之后就可以立刻停掉換方向了。”一位投資人表示,“這其實是救了很多公司,尤其是一些排位比較靠后的AI視頻類公司。”
“融不到10億美金,可以洗洗睡了”
在Sora發(fā)布之后,國內(nèi)的基礎大模型公司開始了新一輪公關(guān)戰(zhàn)。
月之暗面率先開戰(zhàn),于2月19日宣布完成了最新一輪10億美元融資。而另一家公司,在還沒有完成新一輪10億美元融資之際,已經(jīng)先向媒體放風公布了即將完成融資的消息。
如果說應用層公司對Sora的反應是悲喜交加,那國內(nèi)做基礎大模型的公司更像是遭遇了一次生死存亡的警告。
Sora的出現(xiàn)再次驗證了大數(shù)據(jù)大算力的“暴力美學”,這會逼迫追趕者繼續(xù)去堆算力,但堆算力就意味著要燒更多的錢。“基礎大模型的創(chuàng)業(yè)公司,如果融不到10億美金,可以暫時洗洗睡了。”陳昱表示。
這是一場持久戰(zhàn),10億美金只是擠上牌桌的資格。要訓練一個等效于GPT-4的模型需要5000-10000張H系列的GPU卡,而每張卡的價格高達3萬美元,再加其他配套設備成本,投入可達數(shù)億美元。而這還不包括推理需要的算力和人力成本,未來的模型升級所花費的資金還要上一個數(shù)量級。
業(yè)界普遍認為,在國內(nèi)眾多基礎大模型創(chuàng)業(yè)公司中,留下的不會超過5家。當下正是各家公司打融資心理戰(zhàn)的時候,多一家公司公布融資信息,就意味著又有幾家將被擠下牌桌,需要盡早放棄基礎大模型的研發(fā)。
除了創(chuàng)業(yè)公司,互聯(lián)網(wǎng)大廠的情況也并不樂觀。
在Sora發(fā)布之后,大廠中只有字節(jié)跳動公布正在研發(fā)一款名為Boximator的創(chuàng)新性視頻生成模型。但字節(jié)跳動官方給出的回應稱:Boximator是視頻生成領(lǐng)域控制對象運動的技術(shù)方法研究項目,目前還無法作為完善的產(chǎn)品落地,距離國外領(lǐng)先的視頻生成模型在畫面質(zhì)量、保真率、視頻時長等方面還有很大差距。
“這些互聯(lián)網(wǎng)大廠內(nèi)部肯定在做,也一定有還沒放出來的。但我相信,這些大廠沒放出來,只能是因為效果還不盡如人意。”一位行業(yè)人士告訴界面新聞。
而在另一位多模態(tài)大模型公司開發(fā)者看來,在用戶端爆火過的模特換裝和科目三舞蹈,根本不是真正意義上的文生視頻。模特換裝是通過改描述詞,修改視頻元素得成。而科目三舞蹈只是把模版視頻里的動作骨骼提取出來,再加到用戶上傳的自己那張照片上,只能算是動作提取。
“基礎大模型核心還是要靠人才。”一位初創(chuàng)AI公司創(chuàng)始人對界面新聞表示。他在一家頭部互聯(lián)網(wǎng)大公司任職多年,熟知大廠內(nèi)部的情況。他表示,一些大廠內(nèi)的創(chuàng)業(yè)激情已經(jīng)很少了,組織關(guān)系非常固化,年輕人想提一個意見很難。“而大模型真正需要的是年輕人拼了命去干,才能干成的。”
事實上,新一輪搶人戰(zhàn)也在打響。最新消息顯示,資深人工智能專家,Google VideoPoet項目研究負責人蔣路被挖去了TikTok,這體現(xiàn)出字節(jié)不想置身事外的態(tài)度。多位字節(jié)內(nèi)部人士告訴記者,去年6月字節(jié)內(nèi)部決定不投資任何大模型公司,把所有精力都專注在自建模型上,但此后其全盤AI工作進展一直不順。
人才會是算力之外的另一卡點,也是新的變數(shù)。昆侖萬維董事長兼CEO方漢日前稱,目前看,國內(nèi)大模型公司最稀缺的是核心算法人才,但樂觀的是,供需情況會迅速得到緩解。
“還是先追上GPT-4吧”
既然Sora生成視頻的能力被公認是一項可用的強力資產(chǎn),那國內(nèi)有什么方法可以迎頭趕上?
“我們現(xiàn)在根本還扯不到多模態(tài)的事情上去。”螞蟻集團一位技術(shù)專家告訴記者,Sora問世幾天來,他們內(nèi)部也很焦慮。
“都還不知道接下來要怎么辦”。他稱。相比阿里戰(zhàn)投在大模型領(lǐng)域風光無限,螞蟻在戰(zhàn)投方面安靜如斯,其負責多模態(tài)的技術(shù)主管,日前也跳槽到了一家AI初創(chuàng)公司。
螞蟻的困境也折射出大公司對于視頻生成模型的含混態(tài)度。目前在一眾頭部大模型初創(chuàng)中,只有智譜在文生視頻方面有所布局。大廠方面,字節(jié)、騰訊、百度披露了視頻生成相關(guān)工作(UniVG、VideoCrafter2等), 但水花不大。
事實上,有沒有視頻生成模型也許不那么重要。“ChatGPT之前大家也都有聊天機器人啊……關(guān)鍵是能不能到達那個水準。”某大廠模型業(yè)務負責人有些無奈,據(jù)其透露,這家大廠暫不打算開展文生視頻方面的工作。
初創(chuàng)方面則是另一番局面。去年下半年,國內(nèi)AIGC領(lǐng)域融資向文生圖與視頻方向靠攏,一批外界很少聽聞的公司悄然成立之后又迅速走向消亡。
文生視頻領(lǐng)域剩下的幾家佼佼者,包括清華大學計算機系教授朱軍的生數(shù)科技,原字節(jié)跳動視覺技術(shù)負責人王長虎創(chuàng)辦的愛詩科技,以及前京東副總裁梅濤創(chuàng)辦的HiDream。但目前這幾家的產(chǎn)品和 Sora 對比,已被全面碾壓。
前亞馬遜首席科學家,著名深度學習專家李沐建議業(yè)界過一陣再來談Sora,他認同大量媒體的評價,即Sora的工作有點像視頻生成界GPT-2到GPT-3的時刻,模型本身跟前作變化不大,但使用了幾百倍算力,“目前報告關(guān)鍵問題有所缺失,相信學界和開源界會很快跟進。”
現(xiàn)下,國內(nèi)基礎模型層公司的當務之急并不是努力趕上Sora,而是努力趕上GPT-4。
去年年中,有創(chuàng)業(yè)者專門詳細測試對比了所有國內(nèi)主流大模型產(chǎn)品與GPT-4,得到的結(jié)論是“有很大進步空間”。科大訊飛董事長劉慶峰則公開表示,國產(chǎn)大模型在復雜知識推理、小樣本快速學習、超長文本處理、跨模態(tài)統(tǒng)一理解上跟GPT-4還有差距。
“GPT-4放前面,Sora放后面,國內(nèi)還是先把GPT-4搞好吧。”近日,與陳昱接觸的國內(nèi)大模型創(chuàng)業(yè)者們目前也沒有特別焦慮,因為大家都沉浸在努力做GPT-4的進程之中,“我知道幾家包括大廠內(nèi)部都在訓練,都沒有訓練完。”據(jù)他判斷,第二季度會是國內(nèi)版“GPT-4”真正出爐的節(jié)點。
萬磊感受到,去年大家普遍都在“卷技術(shù)”。這位大廠出身的90后創(chuàng)業(yè)者說,如果不做真正技術(shù)上的突破,大家對于“國外AI教父是奧特曼,國內(nèi)是李一舟”的吐槽便會成為現(xiàn)實,這是他最擔憂的事情。
“焦慮是沒有用的,不解決問題。”嘉程資本創(chuàng)始合伙人李黎稱,創(chuàng)業(yè)者必須仔細看清楚當前所處的位置,做好能做的事情。
還有新機會嗎?
當然,面對Sora其他人不是完全沒有機會。
在Sora模型發(fā)布的當天,Meta推出了一款全新開源視頻預測模型V-JEPA。開源大語言模型在過去一年經(jīng)歷了如火如荼的發(fā)展,其中的佼佼者與GPT-4之間的差距已經(jīng)越來越小。
硅谷風投機構(gòu)Fusion Fund創(chuàng)始人張璐表示,開源領(lǐng)域有很大的競爭空間。她看好開源平臺層面上有新的語言模型能對標GPT-4,當然也會有新的多模態(tài)模型能追上Sora。
技術(shù)的顛覆是更具想象力的一條道路。
現(xiàn)在業(yè)界基本達成共識,Sora所做的是把擴散模型Diffusion和Transformer骨架結(jié)合在一起,加上大量的數(shù)據(jù)和算力最終產(chǎn)生了我們看到的結(jié)果。
但這種方式也許不是文生視頻的最優(yōu)解。圖靈獎獲得者、Meta首席科學家楊立昆就曾多次批判OpenAI的技術(shù)路線。Sora出現(xiàn)贏得所有人的驚嘆之后,他也表示這些視頻并不代表模型理解了物理世界。
Amino Capital合伙人徐霄羽表示,Pika未來的技術(shù)路線也很值得觀察。這家初創(chuàng)公司目前正在自建模型。
在對Sora技術(shù)路線的質(zhì)疑聲中,老生常談“作為AI大模型主流架構(gòu)的Transformer也許并非唯一解”被重新提上日程。硅谷投資人們一直認為,如果能出現(xiàn)其他超越Transformer的新模型,那OpenAI就不會獨占鰲頭。
面對Sora的橫空出世,Runway CEO第一時間在X上發(fā)推稱,“game on(競爭開始了)” ,表態(tài)要和OpenAI正面競爭。
國內(nèi)技術(shù)派創(chuàng)業(yè)者也沒有示弱。“我們看到Sora也很激動,正在加班加點迎頭追趕。”王長虎創(chuàng)辦的愛詩科技仍保持樂觀,這家公司和Sora完全處在同一賽道之上。
更多應用層的創(chuàng)業(yè)者則在思考如何能利用上Sora的能力來幫助自己。
“Sora出來之后,我們非常興奮,做一個真的有血有肉的電影完全沒問題了。”萬磊第一時間意識到了公司的新機會,并立刻在合伙人群里分享自己看法。
他參與創(chuàng)辦的新公司波形智能的主要業(yè)務是基于自研模型生成小說、劇本內(nèi)容。去年,波形智能討論過將業(yè)務從劇本創(chuàng)作拓展至成品的短劇生成一條龍服務,但這個方向最終卡在了文生視頻的質(zhì)量上,當時市面上的接口基本都無法達到滿意的效果。現(xiàn)在,也許新的機會就要來了。
“現(xiàn)在我們的戰(zhàn)略可以重新調(diào)整了。”他說。
來源:界面新聞 作者:肖芳XF 李京亞