时政·财经·军事 | 生活·家庭·娱乐 | 体坛·历史·科技 | 摄影·旅游·文化 | 移民·教育·就业 | 数码·健康·奇闻 | 社区·评论·问卷
留园网首页 · 新闻速递首页 · 【繁體閱讀】 【网友评论:9 条】 【 热评新闻排行 】 【 热门新闻排行 】 【 即刻热度新闻排行 】 【 72小时神评妙论 】   

OpenAI刷屏的视频模型,是怎么做到这么强的?(图/视)

新闻来源: 差评/格隆 于2024-02-16 21:59:25  提示:新闻观点不代表本网立场



今天凌晨,OpenAI 发布了新的文生视频大模型,名为 “ Sora ”。

Sora 模型可以生成最长 60 秒的高清视频,生成的画面可以很好的展现场景中的光影关系、各个物体间的物理遮挡、碰撞关系,并且镜头丝滑可变。

相信大家已经在朋友圈看到了非常多的文章在展示 OpenAI 的官方演示视频,由于生成内容的安全问题 Sora 还未开放测试,我们无法获取更多差异化信息,所以知危编辑部在此不再重复展示 Sora 模型的效果。

下面,我们想重点探讨为何 Sora 模型的效果看起来远超市面上我们见过的其他文生视频模型,他们都做了什么?

示例视频的生成提示词为:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。

首先,在文生视频领域,比较成熟的模型思路有循环网络( RNN )、生成对抗网络( GAN )和扩散模型( Diffusion models ),而本次OpenAI 推出的 Sora 则是一种扩散模型。

虽然 GAN 模型之前一直很火,但图像和视频生成相关的领域,现在处于被扩散模型统治的阶段。

因为扩散模型是有非常卓越的优越性的,相较于 GAN,扩散模型的生成多样性和训练稳定性都要更好。而最重要的是,扩散模型在图片和视频生成上有更高的天花板,因为 GAN 模型从原理上来看本质上是机器对人的模仿,而扩散模型则更像是机器学会了 “ 成为一个人 ”。

这么说或许有些抽象,我们换一个不严谨但通俗好理解的例子:

GAN 模型像是一个勤奋的画家,但不太受控制,因为画家( 生成器 )一边不停对着先作( 训练源 )画画,然后另一边老师( 判别器 )也不停打分。就在大战无数个回合之后,画家和老师疯狂升级进步,最后直到画家画出逼真的画,但整个过程不太好控制,经常练着练着就走火入魔,输出一些谁也看不懂的玩意儿。同时,他的提升过程本质上是对先作的不断模仿,所以他还缺乏创造力,导致天花板也潜在会比较低。

而扩散模型,则是一个勤奋且聪明的画家,他并不是机械的仿作,而是在学习大量先作的时候,他学会了图像内涵与图像之间的关系,他大概知道了图像上的 “ 美 ” 应该是什么样,图像的某种 “ 风格 ” 应该是什么样,他更像是在思考,他是比 GAN 更有前途的画家。

也就是说,OpenAI 选择扩散模型这个范式来创造文生视频模型,在当下属于开了个好头,选择了一个有潜力的画家来培养。

那么,另一个疑问就出现了,由于大家都知道扩散模型的优越性,除了 OpenAI 以外,同样在做扩散模型的还有很多友商,为什么 OpenAI 的看起来更惊艳?

因为 OpenAI 有这样一个思维:我曾经在大语言模型上获得了非常好的效果、获得了如此巨大的成功,那我有没有可能参考这个经验获得一次新的成功呢?

答案是可以。

OpenAI 认为,之前在大语言模型上的成功,得益于 Token( 可以翻译成令牌、标记、词元都可,翻译为词元会更好理解一些 ),Token 可以优雅的把代码、数学以及各种不同的自然语言进行统一进而方便规模巨大的训练。于是,他们创造了对应 Token 的 “ Patche ” 概念( 块,如果 Token 翻译为词元理解的话,Patche 或许可以被我们翻译为 “ 图块 ” )用于训练 Sora 这个视频模型。



实际上,在大语言模型中,Token 的应用之所以会如此成功,还得益于 Transformer 架构,他与 Token 是搭配着来的,所以 Sora 作为一个视频生成扩散模型,区别于主流视频生成扩散模型采用了 Transformer 架构。( 主流视频生成扩散模型较多采用 U-Net 架构 )

也就是说,OpenAI 赢在了经验与技术路线的选择上。

但是,Transformer 架构这个 “ 成功密码 ”人尽皆知,在文字、图像生成上已经成为了主流,为什么别人没想着在视频生成上用,OpenAI 就用了呢?

这源自另外一个问题:Transformer 架构中全注意力机制的内存需求会随着输入序列长度而二次方增长,所以处理视频这样的高维信号时,计算成本会非常非常高。

通俗点说,就是虽然用了 Transformer 效果会好,但所需的计算资源也是非常恐怖的,这么做不是很经济。

当然,OpenAI 虽然拿各种融资拿到手软,但也依然没那么财大气粗,所以他们并没有直接猛砸资源,而是想了另外一种方式来解决计算成本高昂的问题。

这里我们要先引入 “ latent ” ( 潜 )这一概念,它是一种 “ 降维 ” 或者说是 “ 压缩 ”,意在用更少的信息去表达信息的本质。我们列举一个不恰当但好理解的例子,这就好像我们用一个三视图就能保存记录一个简单的立体物体的结构,而非一定要保存这个立体本身。

OpenAI 为此开发了一个视频压缩网络,把视频先降维到潜空间,然后再去拿这些压缩过的视频数据去生成 Patche,这样就能使输入的信息变少,有效减小 Transformer 架构带来的计算量压力。

如此一来,大部分问题就都解决了,OpenAI 成功地把文生视频模型套进了其在过去取得巨大成功的大语言模型的范式里,所以效果想不好都难。

除此之外,OpenAI 在训练上的路线选择也稍有不同。他们选择了 “ 原始尺寸、时长 ” 训练,而非业内常用的 “ 把视频截取成预设标准尺寸、时长 ” 后再训练。

这样的训练给 Sora 带来了诸多好处:

①生成的视频能更好地自定义时长;

②生成的视频能够更好地自定义视频尺寸;

③视频会有更好的取景和构图;

前两点很好理解,第三点 OpenAI 给出了范例,他们做了一个截取尺寸视频训练和原始尺寸视频训练的模型对比:



左侧为截取尺寸视频训练后模型生成的视频。

右侧为原始尺寸视频训练后模型生成的视频。

另外,为了文生视频能够更好地理解用户的意图,达到更好的生成效果,OpenAI 也在 Sora 模型上加入了一些巧思。

首先,训练 Sora 这样的文生视频模型,需要大量含有文本说明的视频素材,所以 OpenAI 利用自家 DALL·E 3 的 re-captioning 功能,给训练用的视频素材都加上了高质量文本描述,他们表示这样可以提高输出视频的整体质量。

除了训练端,在输入端他们也动了脑筋,用户输入的提示词并非直接交给 Sora 进行生成的,OpenAI 利用了 GPT 的能力,在用户给 Sora 输入提示词的时候,GPT 会先将用户输入的提示词进行精准的详尽扩写,然后再将扩写后的提示词交给 Sora,这样能更好地让 Sora 遵循提示词来生成更精准的视频。

好了,到这里,我们对 Sora 模型为什么看起来更强的简要解析就结束了。

从整体来看,你会发现 Sora 模型的成功并非偶然,他能有如此惊艳的效果,全都得益于 OpenAI 过去的工作,包括 GPT、DALL·E 等,有些是直接调用,有些是借用了思路。

或许我们可以说,OpenAI 自己先成为了一个巨人,然后再站在自己这个巨人的肩膀上,成为了一个新的巨人。

而相对应的是,无论国内还是国外的其他竞争对手,或许会因为文生文、文生图上的技术差,在未来被甩的更远。

所谓 “ 弯道超车 ”、“ 差距只有 X 个月 ”,或许是不存在的,只是自我安慰。

OpenAI炸裂升级!又一个行业被干掉了

假期轻松愉快,没太关注时事。

没想到一觉醒来,朋友圈突然被一则新闻刷屏:OpenAI发布文生视频模型Sora 。

好家伙,瞬间给我拉回工作氛围。

人们一直期待GPT-5,但Sora带来的轰动不亚于GPT-5的发布。

之前大家还在关注,谷歌推出的Gemini能否杀死GPT4,全世界各大科技巨头能否在这波AI浪潮中弯道超车。

现在,显然没人关注了。

因为OpenAI自己可能要用它先杀死GPT-4了。



我上官网(https://openai.com/sora)看了演示视频,无论从视频流畅度还是细节表现能力上,Sora的效果都相当惊艳。

难怪有人说:现实,不存在了。

比如官推里这条14秒的东京雪景: 美丽的,被雪覆盖的东京正繁忙着。镜头穿过繁忙的城市街道,跟随着几个享受雪景和在附近摊位购物的人。美丽的樱花瓣随风飘落,与雪花一同飞舞。

尽管我们能感觉到,还有那么一些不自然。但当素材用,已经足矣。



又比如下面这张对法令纹和痘印的刻画,只要不去吹毛求疵,确实已经足够真实。

说句不该说的,这张图,至少看起来比坐在美颜前面的女主播们真实……



网友们也第n+1次纷纷哀悼起相关赛道的公司们:

“OpenAI就是不能停止杀死创业公司。”

“天哪,现在起我们要弄清什么是真的,什么是假的。”

“我的工作没了。”

“整个影像素材行业被血洗,安息吧。”

……

01 现实与虚拟的界限

其实,文字生成视频这回事,早就不新鲜了。

2023年8月,RunwayGen2正式推出,AI生成式视频正式进入大众视野。

到今年初,不计其数的产品一个接一个,PIKA、Pixverse、SVD、Genmo、Moonvalley……等等等等。

太多了,也太卷了。

我们能明显感觉到,最近小半年刷的短视频里,多了很多不自然的视频。稍微品一品,就能察觉这肯定不是人工剪辑的。

首先,没有超过4s的连贯镜头;其次,很不自然。

这些实用的工具,基本都是小公司出品的,功能并不完善。

说不完善都还算保守了,简直就是漏洞百出。

视频内容归根结底,是对现实世界的还原。既然如此,那其中必然包含大量交互镜头——物与物、人与人、人与物,等等。

就像用摄像机拍出来的片段一样。

我们看电影、看视频,看的也是交互,相信没几个人喜欢看一个人的独白。

比如,玻璃杯从桌子上摔到地上,它应该碎掉;像皮球摔到地上,它应该弹两下。

但让AI去合成这类场景,你就会发现,它并不会还原以上的物理现象。物体与物体碰撞或叠加到一起,AI只会让其中一方变形。

这说明了一个关键问题: 过去的AI并不理解现实世界的规律。



不符合人类常识的视频,能有多大市场呢?

不理解基础物理的AI,它的上限能有多高?

想要解决这个问题,难不难?很难。

现在的AI大模型,虽然是模拟的人脑,但毕竟有所区别。

最本质的区别在于: AI 没有想象力。

比如,你一巴掌扇在我脸上,面部肌肉如何颤动?把一颗鱼雷扔进池塘,水面如何散开?

我们可以想象到后续会发生的事情,AI 不能。

无论它的参数堆得多高、计算速度再快,都不能。

即便是目前的Sora也做不到。

从各种演示例子中可以看到,虽然Sora 对自然语言有着深入的理解,能够准确洞悉提示词,生成表达丰富的内容,甚至可以创建多个镜头、保持角色和视觉风格的一致性。

但是,它依然无法准确模拟出复杂场景的物理现象,因为它不理解因果关系。

比如,人咬了一口饼干,但饼干上没有咬痕;又或者混淆左右、不遵循特定的摄像轨迹;甚至无法理解,影子是人的影子还是物的影子……

如此一来的结果,便是合成有违物理常识的视频。



既然如此,Sora到底牛在哪里,为什么这么多人追捧它?

因为它其实做得足够好了,至少比同行们好太多了。

用Fortune杂志的话来说就是: 将生成式AI之战转移到了好莱坞。

用官网的话来说,它能够生成包含多种角色和特定类型的运动,主体和背景细节准确;还能理解事物在物理世界的存在方式。

简单来说,它虽然还不能理解需要想象力的因果律,但最基本的现实场景,它是可以还原的。

AI生成视频这一条赛道,诞生至今还不到1年,我们确实不能要求太高。

如果把上文描述的内容当做终结目标,把去年至今的一系列生成工具作为雏形,Sora大概处在两者之间。

它是如何做到的?

02 谁站在巨人肩上?

Sora主要采用了两种技术。

一个是扩散模型(diffusion model),原本是用于文字转图片的。

简单来讲,是先生成一张全是noise(噪声)的图片,与目标图片的vector尺寸相同(比如目标图片是256*256,初始sample图片也要是256*256),然后经过若干次denoise(去噪声),让图片逐步成型。

问题在于,大模型怎么知道去除什么?保留什么?



当然需要训练。

研究人员得先用清晰的图片,一步一步加噪声进去,如下图。

这是上图的逆序,即反向扩散。



看懂了上面两个步骤,你才能理解MIT Technology Review究竟在说啥:

Sora的团队使用了DALL-E 3背后的技术,即扩散模型。扩散模型经过训练后可以将模糊的随机像素变成图片。

其原理并不复杂,但需要时间和人力成本。

另一项技术是Transformer的神经网络,就是GPT(Generative Pre-Trained Transformer)中的T。

但是,Transformer 架构人尽皆知,在文字、图像生成上已经成为主流,为什么别人没想着在视频生成上用,就OpenAI 用了呢?

用技术的话来说: Transformer 架构中,全注意力机制的内存需求会随着输入序列长度而二次方增长。

说人话就是: 计算成本太高了。

即便OpenAI背靠微软,各种融资拿到手软,也不愿意这样烧钱。

所以他们开发了一个视频压缩网络,先把视频数据降维到latent(潜空间),再将压缩过的数据生成 Patche,这样就能使输入的信息变少,有效减小计算量压力。



然后,为了让大模型更好理解用户的意思,OpenAI 直接把文生视频模型套进已经得到市场认可的GPT模型范式中,这就是它独有的优势了。

使用者输入的提示词,并非直接交给Sora,而是先让成熟的GPT将文本进行精准详细的扩写。

Sora再根据GPT提供的详细文本,逐帧生成更准确的视频。

说实话,个人认为,这才是Sora有别于其他模型的最大优势。

其他团队即便能解决其他步骤,但没有成熟的大模型,也是白搭。

整体上看,Sora的成功几乎是水到渠成的。

它能有如今惊艳的表现,基本全部得益于OpenAI过去的成果,有些是借用了思路,有些则是不可或缺的基本架构。

这就是所谓的先发优势了,它不仅仅体现在老生常谈的垄断问题上面。

一生二、二生三、三才生万物。

反观OpenAI此时此刻全世界的各大竞争对手,无一例外全部卡在文生文、文生图上。

更有甚者,连一都没有的,还是老老实实抓紧做底层。不然等先发者三生万物了,真的是什么都晚了。

我们能明显感觉到,AI比过去任何行业的迭代都要快。

也许,这个技术差只要维持两年,就会变成永远无法逾越的鸿沟。

所谓“差距只有几个月”、“弯道超车”,基本是不存在的。

03 尾声

正如上文所说,Sora目前仍有很大缺陷。

它能生成复杂、精美且足够长的视频,这证明AI在理解现实世界的能力上有相当大的提升。

但这种提升,依然基于大量的训练,而不是AI本身对世界的理解。Sora对视频的处理依旧是有很多局限性,甚至包括很基本的事实错误。

所以Sora给人的感觉虽然震撼,但还称不上这两天热烈讨论的“世界模型”。

所谓“现实不存在了”,绝对不是指现在。

但未来说不准。

在我们普通人眼中,Sora就是个文生视频模型。它的出现,意味着大多数影视、视频制作从业人员,即将失业。

但对OpenAI团队而言,并不仅此而已——这必然是他们构建AGI(通用人工智能)的重要环节。

AGI与世界的交互不仅体现在文字、图片和语音等形式上,还有更直接的视觉视频,这也是人类自古以来认知和理解世界最重要的方式。

所以生成视频、理解视频和理解物理世界,是未来AGI必备能力之一。

此时此刻,我们还能想象得到,生成式AI会对影视、游戏制作行业造成天翻地覆的影响。

等到通用人工智能问世的那一刻,AI到底能做什么、会对世界造成多大的影响?

所有人都能想象到的,是必然会应用到具身智能,也就是机器人上。

但除此之外呢?抱歉,想象力有限,真的想象不出来。

或许,AI真的就是全人类期待了几十年的那个技术奇点。你知道某些事情会发生,但无法想象究竟是什么事。(如果能想象,那也就不叫奇点了)

只能祈祷,未来是星辰大海,商机遍地。

			
网编:睿文

鲜花(2)

鸡蛋(2)
9 条
【手机扫描浏览分享】

扫一扫二维码[Scan QR Code]
进入内容页点击屏幕右上分享按钮
新闻速递首页 | 近期热门新闻 | 近期热评新闻 | 72小时神评妙论 | 即刻热度新闻排行
数码家电】【电脑前线】【手机数码
敬请注意:新闻内容来自网络,供网友多视角阅读参考,观点不代表本网立场!若有违规侵权,请联系我们。
前期相关精彩新闻
新闻速递首页·向留园新闻区投稿·本地新闻·返回前页