OpenAI發(fā)布首款視頻生成模型Sora
發(fā)布時(shí)間:2024-02-16 15:59:14來源:逗游作者:逗游網(wǎng)
Alien Hop角色好玩的發(fā)布休閑快樂小游戲- 游戲類別:休閑益智
- 游戲大小:0 M
- 游戲語言:簡體中文
- 游戲版本:v1.0.0
ChatGPT開發(fā)團(tuán)隊(duì)OpenAI發(fā)布了最新的視頻生成模型“Sora”,此模型可以根據(jù)文字指令能生成長達(dá)1分鐘的首款視頻生成高清視頻,并且有一定的模型貴陽南明空姐大學(xué)生兼職包夜服務(wù)vx《749*3814》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)“現(xiàn)實(shí)模擬”能力,相比制作游戲的發(fā)布物理引擎,其上限要高得多,首款視頻生成下面帶來詳細(xì)介紹。模型

1.他們能訓(xùn)練出這個(gè)模型的發(fā)布基礎(chǔ)是:找到了一種統(tǒng)一的用文本描述視頻材料的范式,得以讓大量的首款視頻生成視頻以及對(duì)應(yīng)的描述材料去訓(xùn)練模型,得到這個(gè)模型能力就是模型貴陽南明空姐大學(xué)生兼職包夜服務(wù)vx《749*3814》提供外圍女上門服務(wù)快速選照片快速安排不收定金面到付款30分鐘可到達(dá)文本和視覺呈現(xiàn)之間的某種互相生成關(guān)系(能力),那如何得到大量帶有相應(yīng)文本字幕的發(fā)布視頻呢?
他們應(yīng)用了 DALL·E 3 中的重構(gòu)字幕技術(shù)(原來是針對(duì)圖片的)到視頻。首先訓(xùn)練一個(gè)高度描述性的首款視頻生成字幕生成器模型,然后使用它為訓(xùn)練集中的模型所有視頻生成文本字幕。 可以想見,發(fā)布訓(xùn)練及使用模型耗費(fèi)的首款視頻生成算力驚人,所以不太可能在短期內(nèi)大范圍開放;

2.大的模型框架是:擴(kuò)散模型+時(shí)空補(bǔ)丁,基于深度學(xué)習(xí)的擴(kuò)散模型,讓一個(gè)隨機(jī)噪聲分布(指向圖像的)轉(zhuǎn)變成有意義的圖像或視頻內(nèi)容,而時(shí)空補(bǔ)丁,定義了一個(gè)時(shí)間序列,使畫面的的變化符合時(shí)間邏輯;
3.Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻。因?yàn)槭侵苯由啥皇遣眉粢曨l,在取景,動(dòng)態(tài)效果上也有一定優(yōu)勢;

4.這個(gè)模型還有幾個(gè)出人意料但合理的能力:
a.它可以從一個(gè)時(shí)間點(diǎn),向前或者向后去延伸視頻,也就是說以某個(gè)畫面為基點(diǎn),生成這個(gè)時(shí)點(diǎn)之前的一段視頻或之后的一段視頻;
b.自如改變視頻的風(fēng)格和環(huán)境;
c.通過插值方式自然的將兩個(gè)視頻連接起來;
d.這一點(diǎn)非常重要,就是這個(gè)模型涌現(xiàn)出了一定的“現(xiàn)實(shí)模擬”能力,在展示視頻中我們看到的不同的鏡頭運(yùn)用,包括 3D畫面的一致性(比如同一物體因?yàn)殓R頭變化,呈現(xiàn)出的在視覺上保持形狀的一致),還包括現(xiàn)實(shí)物體的交互(比如要面包后面包上的咬痕)并非刻意設(shè)計(jì),或者“建模”的結(jié)果,而是自然涌現(xiàn)的,這點(diǎn)我們在純語言模型上已經(jīng)見識(shí)過了。
而在這個(gè)模型上面涌現(xiàn)出的能力,用文章中的原話來描述“是開發(fā)物理和數(shù)字世界以及生活在其中的物體、動(dòng)物和人的強(qiáng)大模擬器的一條有前途的道路。”


相關(guān)文章




精彩導(dǎo)讀
熱門資訊
關(guān)注我們