機(jī)械社區(qū)

 找回密碼
 注冊會員

QQ登錄

只需一步,快速開始

搜索
查看: 1506|回復(fù): 9
打印 上一主題 下一主題

OpenAlSora官方技術(shù)報告中文版

[復(fù)制鏈接]
跳轉(zhuǎn)到指定樓層
1#
發(fā)表于 2024-2-19 09:47:11 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
OpenA12月16日凌晨發(fā)布了文生視頻大模型Sora,在科技圈引起一連串的震驚和感嘆,在2023年,我們見證了文生文、文生圖的進(jìn)展速度,視頻可以說是人類被A|攻占最慢的一塊“處女地”。而在2024年開年,OpenAl就發(fā)布了王炸文生視頻大模型Sora,它能夠僅僅根據(jù)提示詞,生成60s的連貫視頻,“碾壓”了行業(yè)目前大概只有平均“4s”的視頻生成長度。
為了方便理解,我們簡單總結(jié)了這個模型的強(qiáng)大之處:
1、文本到視頻生成能力:Sora能夠根據(jù)用戶提供的文本描述生成長達(dá)60S的視頻,這些視頻不僅保持了視覺品質(zhì),而且完整準(zhǔn)確還原了用戶的提示語。
2、復(fù)雜場景和角色生成能力:Sora能夠生成包含多個角色、特定運(yùn)動類型以及主題精確、背景細(xì)節(jié)復(fù)雜的場景。它能夠創(chuàng)造出生動的角色表情和復(fù)雜的運(yùn)鏡,使得生成的視頻具有高度的逼真性和敘事效果。
3、語言理解能力:Sora擁有深入的語言理解能力,能夠準(zhǔn)確解釋提示并生成能表達(dá)豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令,并在生成的視頻內(nèi)容中忠實地反映這些指令。
4、多鏡頭生成能力:Sora可以在單個生成的視頻中創(chuàng)建多個鏡頭,同時保持角色和視覺風(fēng)格的一致性。這種能力對于制作電影預(yù)告片、動畫或其他需要多視角展示的內(nèi)容非常有用。
5、從靜態(tài)圖像生成視頻能力:Sora不僅能夠從文本生成視頻,還能夠從現(xiàn)有的靜態(tài)圖像開始,準(zhǔn)確地動畫化圖像內(nèi)容,或者擴(kuò)展現(xiàn)有視頻,填補(bǔ)視頻中的缺失幀。
6、物理世界模擬能力:Sora展示了人工智能在理解真實世界場景并與之互動的能力,這是朝著實現(xiàn)通用人工智能(AGI)的重要一步。它能夠模擬真實物理世界的運(yùn)動,如物體的移動和相互作用。
可以說,Sora的出現(xiàn),預(yù)示著一個全新的視覺敘事時代的到來,它能夠?qū)⑷藗兊南胂罅D(zhuǎn)化為生動的動態(tài)畫面,將文字的魔力轉(zhuǎn)化為視覺的盛宴。在這個由數(shù)據(jù)和算法編織的未來,Sora正以其獨(dú)特的方式,重新定義著我們與數(shù)字世界的互動。一反常態(tài),OpenAI在模型公布后的不久,就公布了相關(guān)的技術(shù)Paper,我們第一時間“啃”了這篇技術(shù)報告,希望能夠幫助大家理解到底有哪些神奇的技術(shù),讓Sora能夠有如此強(qiáng)大的魔力。


鏈接

https://www.aihub.cn/news/video-generation-models-as-world-simulators/

回復(fù)

使用道具 舉報

推薦
 樓主| 發(fā)表于 2024-2-19 14:12:55 | 只看該作者
天才科學(xué)家謝賽寧說的

微信圖片_20240219140824.png (619.63 KB, 下載次數(shù): 51)

微信圖片_20240219140824.png
回復(fù) 支持 1 反對 0

使用道具 舉報

2#
發(fā)表于 2024-2-19 10:38:22 | 只看該作者
Thanks.

第一反應(yīng),小說直接成劇,是不是變?yōu)榱丝赡??dāng)然復(fù)雜程度很高很高~

第二反應(yīng),之前AI換臉,在Sora面前就是過家家啊~

第三反應(yīng),國內(nèi)的300+家大模型,突飛猛進(jìn)的發(fā)展著,遙遙領(lǐng)先的進(jìn)步著,差距……又拉大了多少?

點(diǎn)評

國內(nèi)的很多行業(yè)都是多而不強(qiáng),缺乏足夠強(qiáng)大的龍頭企業(yè)  發(fā)表于 2024-2-19 11:52
回復(fù) 支持 反對

使用道具 舉報

3#
 樓主| 發(fā)表于 2024-2-19 12:34:38 | 只看該作者
向上努力 發(fā)表于 2024-2-19 10:38
Thanks.

第一反應(yīng),小說直接成劇,是不是變?yōu)榱丝赡??dāng)然復(fù)雜程度很高很高~

國內(nèi)除了有限的幾家,都是套殼的。畢竟大模型關(guān)鍵在于大,服務(wù)器成本太高了
回復(fù) 支持 反對

使用道具 舉報

4#
發(fā)表于 2024-2-19 12:54:31 | 只看該作者
以后短視頻制作方便了,可以不用拍攝了。不過一樣是千篇一律,看多了沒滋味了,如同好萊塢大片、港片。
回復(fù) 支持 反對

使用道具 舉報

5#
發(fā)表于 2024-2-19 14:02:24 | 只看該作者
好帖我頂
回復(fù)

使用道具 舉報

7#
發(fā)表于 2024-2-19 17:36:34 | 只看該作者
我感覺就是不同場景的AI合成,吹的神乎其神的。
回復(fù) 支持 反對

使用道具 舉報

8#
發(fā)表于 2024-2-20 08:40:26 | 只看該作者
以后的世界不敢想象
回復(fù) 支持 反對

使用道具 舉報

9#
發(fā)表于 2024-2-20 09:00:55 | 只看該作者
未來在AI界可能有翻天覆地的變化
回復(fù) 支持 反對

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 注冊會員

本版積分規(guī)則

小黑屋|手機(jī)版|Archiver|機(jī)械社區(qū) ( 京ICP備10217105號-1,京ICP證050210號,浙公網(wǎng)安備33038202004372號 )

GMT+8, 2024-11-18 10:58 , Processed in 0.054928 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

© 2001-2017 Comsenz Inc.

快速回復(fù) 返回頂部 返回列表