【腾讯云】Lighthouse助力跨境电商业务扬帆出海

Sora 推出,马斯克可能是心情最复杂的一个。不仅因为其本人与 OpenAI 早年的纠葛,更因为 Sora 实现的其实是特斯拉早几年间一直在探索的方向。

OpenAI的新成果Sora制作的视频:雨后的东京街头,光影和反射都处理得很到位!

如果从「理解世界」的角度来审视 Sora,那么某一帧图像的画质、画面关系绝不是模型质量高低的评判标准,甚至官网释出的 60 秒一镜到底视频也不是最核心的部分。重要的是这个生成的视频可以被剪辑——在不同的机位下,无论是广角、中景、近景、特写,视频中人物和背景的关系都保持着高度的「一致性」。这才是 Sora 遥遥领先并接近真实的地方。

Sora 生成的视频,在不同机位下呈现出的「一致性」| OpenAI 官网截图

据中国新闻网报道,有专业人士表示,Sora是给内容创作者的超级大礼包,不仅可以降低成本、加速创作,还能让观众的视觉体验丰富到爆表。AI未来的画卷,将比我们想象的还要精彩。

也有声音认为,这一新技术可能会带来一系列风险乃至社会问题。AI内容制作,让现实与虚拟的界线变得模糊。内容真实性、版权、隐私、数据、安全等问题纷至沓来。社会需要一套完善的政策、法律和伦理规范来应对,确保技术发展不脱轨,保护每个人的利益。与此同时,市场对于OpenAI发布的新模型“Sora”非常关注,纽约时报报道称,现在OpenAI的估值或达到约800亿美元。

而随着Sora的爆火,马斯克于2月18日,在科技主播 @Dr.KnowItAll 一条主题为「OpenAI 的重磅炸弹证实了特斯拉的理论」的视频下留言,称「特斯拉已经能够用精确物理原理制作真实世界视频大约一年了」。

随后他在 X 上转发了一条 2023 年的视频,内容是特斯拉自动驾驶总监 Ashok Elluswamy 向外界介绍特斯拉如何用 AI 模拟真实世界驾驶。视频中,AI 同时生成了七个不同角度的驾驶视频,同时只需要输入「直行」或者「变道」这样的指令,就能让这七路视频同步变化。

当然,这不意味着特斯拉早在一年前就掌握了 Sora 的技术,毕竟特斯拉的生成技术只用于模拟车辆行驶,而 Sora 能够处理的环境、场景、Prompt、物理规律等信息更加复杂,二者在难度上不可同日而语。

但特斯拉 AI 和 Sora 训练的思路是一致的:并不是训练 AI 如何生成视频,而是训练 AI 理解和生成一个真实的场景或者世界,视频只是从某一个视角观察这个场景的一段时空。这是两家在现有业务上完全不同的公司,以彼此不同的方法来感知真实世界,而他们共同希望通向的,都是 AGI(通用人工智能),甚至更具体一些,就是具身智能和智能体。

那接下来就看看,Sora和特斯拉的能力对比到底如何?

Sora,OpenAI的首个视频生成大模型,或者说是文生视频大模型。本质上是一个扩散模型(Diffusion models),基于不同时长、分辨率和宽高比的视频和图像训练得来。

官方只浅浅介绍了一些技术细节,其中比较关键的有patch、潜(latent),以及训练路线上的选择。

对应语言大模型中的token,OpenAI创造了patch这一概念,模型可以将视频压缩进低维潜空间中,并分解为Spacetime latent patches,统一不同的视觉数据表现形式。

也就是说,正如token可以简化、统一不同的自然语言,patch可以统一不同分辨率、时长和宽高比的视频和图像。

而这个视频压缩网络也是OpenAI特意训练的,用来降低视觉数据维度,并且训练也是基于该网络进行,可以减少计算量的压力。

并且,由于Sora的训练直接在视频数据的原始尺寸上进行,和其他模型不同,所以在输出结果上,Sora也能hold住各种分辨率、时长、宽高比、视角等等的视频。

同时还优化了构图和布局。比如业内同类型模型都会盲目裁剪输出视频为正方形,造成主题元素只能部分展示,但Sora可以捕捉完整的场景。

所以 最终展示出的Sora,就不仅能够理解提示词中的要求,还了解这些物体在物理世界中的存在方式。

在这个新架构中,OpenAI沿用了此前大语言模型的思路,提出了一种用 Patch(视觉补丁)作为视频数据来训练视频模型的方式,是一个低维空间下统一的表达单位,有点像文本形式下的Token。LLM把所有的文本、符号、代码都抽象为Token,Sora把图片、视频都抽象为Patch。

简单来说,OpenAI会把视频和图片切成很多小块,就像是拼图的每一片一样。这些小块就是Patch,每一个补丁就像是电脑学习时用的小卡片,每张卡片上都有一点点信息。

通过这种方式,OpenAI能够把视频压缩到一个低维空间,然后通过扩散模型模拟物理过程中的扩散现象来生成内容数据,从一个充满随机噪声的视频帧,逐渐变成一个清晰、连贯的视频场景。整个过程有点像是把一张模糊的照片变得清晰。

按OpenAI的说法,将视觉数据进行统一表示这种做法的好处有两点:

第一,采样的灵活性。Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频(如下列3个视频)。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容,快速以较低尺寸制作原型内容。

第二,取景与构图效果的改善。根据经验发现,以原始宽高比对视频进行训练可以改善构图和取景。比如,常见的将所有训练视频裁剪为正方形的模型,有时会生成仅部分可见主体的视频。相比之下,Sora 的视频取景有所改善。

为什么OpenAI能够想到将视觉数据进行统一表示的方法?除了技术原因外,也很大程度上得益于OpenAI与Pika、Runway,对AI视频生成模型的认知差异。

不过,Sora现在并不完美。OpenAI指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。

例如“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,狼的数量会变化,一些凭空出现或消失。

还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。

如提示词“篮球穿过篮筐然后爆炸”中,篮球没有正确被篮筐阻挡。

以上就是Sora当前展示出的能力,还有背后的技术,那么特斯拉的能力又如何?

特斯拉的视频生成能力:去年7月,特斯拉自动驾驶软件总监Ashok Elluswamy在CVPR2023的演讲中提到,特斯拉正在为其人工智能技术构建一个基础的世界模型(General World Model)。

根据他的介绍,该模型基于神经网络,使用过去的视频和其他事物为条件来预测未来。

该模型不仅能预测一个摄像头的视角,而是可以预测八个摄像头的视角(展示的是七个)。

比如对于同一段视频,该模型可以预测本车在“继续直行”和“向右变道”两种情况下,未来周围环境的演变。

这其实也就是一种基于文本生成不同视频的能力。

同时在不同摄像头视角之间,周围车辆的颜色可以保持一致,也就是符合3D物体移动的运动规律。

特斯拉这里还强调,我们并没有特意训练它在3D层面的能力,或者要求它表现出3D层面的能力,这意味着神经网络已经理解了深度、运动等物理概念。 并且,特斯拉 的这个模型不局限于RGB数据维度,也可以是语义或者几何维度。

一句话总结就是,基于过去的视频,给出车辆行动提示,甚至不给提示,该模型可以预测不同的未来情况,以及生成视频。

那么既然特斯拉有了如此强大的模型,为什么之前并没有很多曝光度?

因为当时介绍时,Ashok直言这还是个“半成品”,关键是它可以提供一个神经网络模拟器,推演出不同的未来结果,跟踪道路中所有移动的物体。 并且,在马斯克这次展示自家视频生成能力时也坦言称,目前对于FSD训练的算力还不够,所以并没有用模型生成的视频进行训练。

不过马斯克也表示,特斯拉是可以训练的,在今年晚些时候,当公司有空余算力了就会开始。 到这里其实能看出特斯拉的世界模型和Sora之间的相似点,都是通过视觉让AI能够理解甚至模拟真实的物理世界。

只不过OpenAI在探索过程中,先放出Sora给世界带来一点AI震撼;而特斯拉把这个能力运用在了探索自动驾驶,通过纯视觉方案,以及视频数据训练出的端到端神经网络,FSD V12已经能比肩老司机。

殊途同归,就像特斯拉把这种生成能力用于训练车辆,Sora 的价值也不仅仅是生成一个难以让人区分真假的视频,用作影视创作者的生产力工具(尽管这是一个非常困难且刚需的场景)。就像周鸿祎所说,「Sora 只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。」

来源:量子位

内容分享:
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购
Top