還未開(kāi)放,Sora怎么就震驚了互聯(lián)網(wǎng)圈?
還未開(kāi)放公眾測(cè)試,OpenAI 憑借文本生成視頻模型 Sora 制作的預(yù)告片,就把科技圈、互聯(lián)網(wǎng)、社交媒體圈給震驚了。
根據(jù) OpenAI 官方發(fā)布的視頻,Sora 能夠根據(jù)用戶提供的文本信息,生成長(zhǎng)達(dá) 1 分鐘的復(fù)雜場(chǎng)景「超視頻」,不僅畫(huà)面細(xì)節(jié)逼真,這個(gè)模型還會(huì)模擬鏡頭運(yùn)動(dòng)感。
從已釋出的視頻效果看,業(yè)內(nèi)興奮的正是 Sora 體現(xiàn)出的理解真實(shí)世界的能力。相較其他文本到視頻的大模型,Sora 在對(duì)語(yǔ)義理解、畫(huà)面呈現(xiàn)、視覺(jué)連貫性和時(shí)長(zhǎng)上都顯示出優(yōu)勢(shì)。
OpenAI 直接稱它為「世界模擬器」,宣告它能夠模擬物理世界中的人、動(dòng)物和環(huán)境的特征。但該公司也承認(rèn),目前 Sora 的還不完美,依然存在理解不到位和潛在的安全問(wèn)題。
因此,Sora 僅對(duì)非常少數(shù)的人開(kāi)放測(cè)試,OpenAI 尚未公布 Sora 何時(shí)會(huì)向大眾開(kāi)放,但它帶來(lái)的震撼足以讓研發(fā)同類(lèi)模型的公司看到差距。
Sora「預(yù)告片」驚爆眾人
OpenAI 文本生成視頻模型 Sora 一出,國(guó)內(nèi)又現(xiàn)「震驚體」評(píng)價(jià)。
自媒體驚呼「現(xiàn)實(shí)不存在了」,互聯(lián)網(wǎng)大佬也吹爆了 Sora 的能力。360 創(chuàng)始人周鴻祎稱,Sora 的誕生意味著 AGI 的實(shí)現(xiàn)可能從 10 年縮短至兩年左右。短短幾天,Sora 的谷歌搜索指數(shù)迅速拉升,熱度直逼 ChatGPT。
Sora 的爆火源于 OpenAI 發(fā)布的 48 段視頻,其中時(shí)長(zhǎng)最長(zhǎng)的為 1 分鐘。這不僅打破了此前文生視頻模型 Gen2、Runway 生成視頻的時(shí)長(zhǎng)極限,而且畫(huà)面清晰,甚至它還學(xué)會(huì)了鏡頭語(yǔ)言。
1 分鐘視頻中,一位身著紅裙的女性走在霓虹燈林立的街頭,風(fēng)格寫(xiě)實(shí),畫(huà)面流暢,最令人驚艷的是女主角的特寫(xiě),連臉部的毛孔、斑點(diǎn)、痘印都模擬了出來(lái),卡粉脫妝效果堪比直播關(guān)掉美顏濾鏡,脖子上的頸紋甚至精準(zhǔn)「泄露」了年齡,與臉部狀態(tài)做到了完美統(tǒng)一。
除了對(duì)人物寫(xiě)實(shí),Sora 還能夠模擬現(xiàn)實(shí)中的動(dòng)物與環(huán)境。一段視頻維多利亞冠鴿的多角度特寫(xiě),超清呈現(xiàn)了這只鳥(niǎo)全身至冠的藍(lán)色羽毛,甚至細(xì)微到紅色眼珠的動(dòng)態(tài)和呼吸頻率,讓人很難分清這到底是 AI 生成的還是人類(lèi)拍攝的。
對(duì)于非寫(xiě)實(shí)的創(chuàng)意動(dòng)畫(huà),Sora 的生成效果也達(dá)到了迪士尼動(dòng)畫(huà)電影的畫(huà)面感,讓網(wǎng)友擔(dān)憂起動(dòng)畫(huà)師的飯碗。
而 Sora 為文本生成視頻模型帶來(lái)的改進(jìn)不僅在視頻時(shí)長(zhǎng)與畫(huà)面效果上,它還能模擬鏡頭與拍攝的運(yùn)動(dòng)軌跡,游戲的第一人稱視角,航拍視角,甚至是電影里的一鏡到底。
看完 OpenAI 放出的精彩視頻,你就能理解互聯(lián)網(wǎng)圈、社交媒體輿論為什么會(huì)為 Sora 感到震驚,而這些只是預(yù)告片。
OpenAI 提出「視覺(jué)補(bǔ)丁」數(shù)據(jù)集
那么,Sora 是如何實(shí)現(xiàn)模擬能力的?
按照 Open AI 發(fā)布的 Sora 技術(shù)報(bào)告,這個(gè)模型正在超越先前圖像數(shù)據(jù)生成模型的限制。
以往的文本生成視覺(jué)畫(huà)面的研究采用過(guò)各種方法,包括循環(huán)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)(GAN)、自回歸變換器和擴(kuò)散模型,但共性是集中在較少的視覺(jué)數(shù)據(jù)類(lèi)別、較短的視頻或固定尺寸的視頻上。
Sora 采用了一種基于 Transformer 的擴(kuò)散模型,生圖過(guò)程可以分為正向過(guò)程和反向過(guò)程兩個(gè)階段,以實(shí)現(xiàn) Sora 能沿時(shí)間線向前或向后擴(kuò)展視頻的能力。
正向過(guò)程階段模擬了從真實(shí)圖像到純?cè)朦c(diǎn)圖像的擴(kuò)散過(guò)程。具體來(lái)說(shuō),模型會(huì)逐步地向圖像中添加噪點(diǎn),直到圖像完全變成噪點(diǎn)。而反向過(guò)程是正向過(guò)程的逆過(guò)程,模型會(huì)從噪點(diǎn)圖像逐步恢復(fù)出原始圖像。一正一反,虛實(shí)來(lái)回,OpenAI 以這種方式讓機(jī)器 Sora 理解視覺(jué)的形成。
從全噪點(diǎn)到清晰圖的過(guò)程
當(dāng)然,這個(gè)過(guò)程需要反復(fù)地訓(xùn)練學(xué)習(xí),模型會(huì)學(xué)習(xí)如何逐步去除噪聲并恢復(fù)圖像的細(xì)節(jié)。通過(guò)這兩個(gè)階段的迭代,Sora 的擴(kuò)散模型能夠生成高質(zhì)量的圖像。這種模型在圖像生成、圖像編輯、超分辨率等領(lǐng)域表現(xiàn)出了優(yōu)秀的性能。
上述過(guò)程解釋了 Sora 能做到高清、超細(xì)節(jié)的原因。但從靜態(tài)的圖像到動(dòng)態(tài)的視頻,仍需要模型進(jìn)一步積累數(shù)據(jù),訓(xùn)練學(xué)習(xí)。
在擴(kuò)散模型的基礎(chǔ)上,OpenAI 將視頻和圖像等所有類(lèi)型的視覺(jué)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示,以此來(lái)對(duì) Sora 做大規(guī)模的生成訓(xùn)練。Sora 使用的表示方式被 OpenAI 定義為「視覺(jué)補(bǔ)?。╬atches)」,即一種更小數(shù)據(jù)單元的集合,類(lèi)似于 GPT 中的文本集合。
研究者首先將視頻壓縮到一個(gè)低維潛空間中,隨后把這種表征分解為時(shí)空 patch,這是一種高度可擴(kuò)展的表征形式,方便實(shí)現(xiàn)從視頻到 patch 的轉(zhuǎn)換,也正適用于訓(xùn)練處理多種類(lèi)型視頻和圖片的生成模型。
將視覺(jué)數(shù)據(jù)轉(zhuǎn)化為 patches
為了用更少的信息與計(jì)算量訓(xùn)練 Sora,OpenAI 開(kāi)發(fā)了一個(gè)視頻壓縮網(wǎng)絡(luò),把視頻先降維到像素級(jí)別的地低維潛空間,然后再去拿壓縮過(guò)的視頻數(shù)據(jù)去生成 patches,這樣就能使輸入的信息變少,從而減少計(jì)算壓力。同時(shí),OpenAI 還訓(xùn)練了相應(yīng)的解碼器模型,將壓縮后的信息映射回像素空間。
基于視覺(jué)補(bǔ)丁的表示方式,研究者能對(duì) Sora 針對(duì)不同分辨率、持續(xù)時(shí)間和長(zhǎng)寬比的視頻 / 圖像進(jìn)行訓(xùn)練。進(jìn)入推理階段,Sora 能通過(guò)在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的 patches 來(lái)判斷視頻邏輯、控制生成視頻的大小。
OpenAI 報(bào)告,在大規(guī)模訓(xùn)練時(shí),視頻模型就表現(xiàn)出令人興奮的功能,包括 Sora 能夠真實(shí)模擬現(xiàn)實(shí)世界中的人、動(dòng)物和環(huán)境,生成高保真的視頻,同時(shí)實(shí)現(xiàn) 3D 一致性、時(shí)間一致性,從而真實(shí)模擬物理世界。
Altman 當(dāng)二傳手為網(wǎng)友測(cè)試
從結(jié)果到研發(fā)過(guò)程,Sora 顯示著強(qiáng)大的能力,但普通用戶還無(wú)從體驗(yàn),目前只能寫(xiě)好提示詞,在 X 上@OpenAI 創(chuàng)始人 Sam Altman,由他作為二傳手,幫網(wǎng)友們?cè)?Sora 上生成視頻后放出來(lái)給公眾看效果。
這也不免令人懷疑 Sora 是否真的如 OpenAI 官方展示得那么牛。
對(duì)此,OpenAI 直言,目前模型還存在一些問(wèn)題。如同早期的 GPT 一樣,現(xiàn)在的 Sora 也有「幻覺(jué)」,這種錯(cuò)誤表示在以視覺(jué)為主的視頻結(jié)果上顯示地更為具象。
例如,它不能準(zhǔn)確地模擬許多基本相互作用的物理過(guò)程,例如跑步機(jī)履帶與人的運(yùn)動(dòng)關(guān)系,玻璃杯破碎與杯內(nèi)液體流出的時(shí)序邏輯等等。
在下面這個(gè)「考古工作者們挖掘出一個(gè)塑料椅」的視頻片段里,塑料椅直接從沙子里「飄」了出來(lái)。
還有憑空出現(xiàn)的小狼崽,被網(wǎng)友戲稱為「狼的有絲分裂」。
它有時(shí)也分不清前后左右。
這些動(dòng)態(tài)畫(huà)面中存在的紕漏似乎都在證明,Sora 仍需要對(duì)物理世界運(yùn)動(dòng)的邏輯去做更多的理解和訓(xùn)練。此外,相比 ChatGPT 的風(fēng)險(xiǎn),給人直觀視覺(jué)體驗(yàn)的 Sora 存在的道德、安全風(fēng)險(xiǎn)更甚。
此前,文生圖模型 Midjourney 已經(jīng)告訴人類(lèi) 「有圖不見(jiàn)得有真相」,人工智能生成的以假亂真的圖片開(kāi)始成為謠言要素。身份驗(yàn)證公司 iProov 的首席科學(xué)官紐維爾博士就表示,Sora 能讓「惡意行為者更容易生成高質(zhì)量的假視頻。」
可想而知,如果 Sora 生成的視頻被惡意濫用,搞在欺詐和誹謗、傳播暴力和色情上,造成的后果也難以估量,這也是 Sora 讓人在震驚之余還會(huì)害怕的原因。
OpenAI 也考慮到了 Sora 可能帶來(lái)的安全問(wèn)題,這大概也是 Sora 僅對(duì)非常少數(shù)人以邀請(qǐng)制開(kāi)放測(cè)試的原因。何時(shí)會(huì)大眾開(kāi)放?OpenAI 沒(méi)有給出時(shí)間表,而從官方釋出的視頻看,其他公司追趕 Sora 模型的時(shí)間不多了。
你可能感興趣的文章
-
AI概念幣種市值已突破120億美元!Sora熱潮下LPT飆漲150%
隨著AI成為了熱門(mén)話題,區(qū)塊鏈要如何與之結(jié)合也成為投資者關(guān)注方向,據(jù)Stocklytics.com數(shù)據(jù),目前與生成式AI相關(guān)的代幣市值已超過(guò)120億美元,更多詳細(xì)關(guān)于AI概念幣種市值已突…
2024-02-19 -
Sora Ventures投資Bitcoin Magazine 300萬(wàn)!成立首個(gè)比特幣生態(tài)基金
這篇文章主要介紹了Sora Ventures投資Bitcoin Magazine 300萬(wàn)!成立首個(gè)比特幣生態(tài)基金的相關(guān)資料,需要的朋友可以參考下…
2023-06-02 -
AI智能體是加密貨幣的下一個(gè)重要催化劑
許多人相信AI智能體可能會(huì)在未來(lái)幾年成為加密貨幣用戶群的大部分,你知道我們總是如何談?wù)撐畠|新用戶嗎?好吧,隨著人工智能協(xié)議的出現(xiàn),這十億用戶實(shí)際上可能只是AI智…
2024-02-18 -
ApeChain選中Horizen Labs!采用Arbitrum技術(shù)開(kāi)發(fā) 主攻游戲
ApeCoin($APE)社群今日完成了一項(xiàng)投票,決定將ApeChain的開(kāi)發(fā)工作交由Horizen Labs、Arbitrum Foundation和Offchain Labs負(fù)責(zé),他們的提案以50.35%的支持率獲勝,這表明A…
2024-02-16 -
幣安將在2/20下架XMR、MULTI、ANT、VAI!不同時(shí)代敘事的終點(diǎn)
幣安公告表示,將在2/20上午下架隱私幣XMR、跨鏈橋幣MULTI、Aragon(ANT)以及Vai(VAI),更多詳細(xì)資訊請(qǐng)看下面正文…
2024-02-07 -
Jeremy Grantham:美國(guó)經(jīng)濟(jì)衰退將至、AI泡沫將破滅、比特幣是騙局
在AI熱潮的刺激下,美股近來(lái)頻頻創(chuàng)下新高,不過(guò)有「價(jià)值型投資大師」稱號(hào)的GMO創(chuàng)辦人Jeremy Grantham近日警告,美股已被嚴(yán)重高估,美國(guó)經(jīng)濟(jì)衰退將至,AI泡沫注定將破滅,同…
2024-02-06 -
BNB Chain展望2024:One BNB策略整合BSC、opBNB、BNB Greenfield
BNB Chain釋出2024年發(fā)展計(jì)劃,借由One BNB的整合策略吸引開(kāi)發(fā)者活絡(luò)生態(tài),以達(dá)到用戶大規(guī)模采用的長(zhǎng)期愿景,更多詳細(xì)資訊請(qǐng)看下面正文…
2024-02-02 -
超越技術(shù)的界限:AI+Web3 的未來(lái)發(fā)展之道
跨越技術(shù)邊界:AI與Web3的未來(lái)融合之路,隨著科技的飛速發(fā)展,人工智能(AI)與Web3的結(jié)合正在開(kāi)創(chuàng)全新的未來(lái),這種結(jié)合不僅超越了單純的技術(shù)層面,更在深層次上改變了我們…
2024-01-29 -
超越技術(shù)的界限:AI+Web3的未來(lái)發(fā)展之道
本篇文章通過(guò)10個(gè)代表性AI+Web3的項(xiàng)目,洞察2024年AI+Web3的可能十大發(fā)展趨勢(shì)…
2024-01-29 -
拆解ZetaChain:為何說(shuō)2024是“鏈抽象”賽道發(fā)展大年?
鏈抽象是指模塊化把區(qū)塊鏈不同功能層分離成結(jié)算層、DA層、執(zhí)行層、Rollup層等等,最近,跨鏈互操作性L1公鏈zetachain發(fā)布空投引發(fā)了市場(chǎng)對(duì)于“鏈抽象”賽道的關(guān)注,如果模塊…
2024-01-28