OpenAI扔出了一颗深水炸弹，文本生成视频来了

当奥特曼发布OpenAI首个视频生成模型Sora之后，业界震撼了，一些人感觉到自己的职业生涯要Over了。Sora能生成长达1分钟的高清视频，要知道这不是拼接和调用，是通过AI自主地生成的视频内容，而且是一镜到底。OpenAI表示，正在教AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。根据文本提示生成视频，现在开始了。

1.颠覆性的革命时代来了？

目前Sora已经能生成具有多个角色、包含特定运动的复杂场景，不仅能理解用户在提示中提出的要求，还了解这些物体在物理世界中的存在方式。Sora还可以在单个视频中创建多个镜头，并依靠对语言的深入理解准确地解释提示词，保留角色和视觉风格。

简单地说，Sora是一种扩散模型，从噪声开始，能够一次生成整个视频或扩展视频的长度，一次生成多帧的视频，确保画面主体即使暂时离开视野也能保持不变。与GPT模型类似，Sora使用了Transformer架构，有很强的扩展性。OpenAI将视频和图像表示为patch，类似于GPT中的token。通过这种统一的数据表示方式，可以在比以前更广泛的视觉数据上训练模型，涵盖不同的持续时间、分辨率和纵横比。

除了能够仅根据文本指令生成视频之外，该模型还能够获取现有的静态图像并从中生成视频，准确地让图像内容动起来并关注小细节。该模型还可以获取现有视频并对其进行扩展或填充缺失的帧，Sora 是能够理解和模拟现实世界的模型的基础，OpenAI相信这一功能将成为实现AGI的重要里程碑。

借助于对语言的深刻理解，Sora能够准确地理解用户指令中所表达的需求，把握这些元素在现实世界中的表现形式。也就是说，Sora创造出的角色，能够表达丰富的情感。要知道，以前的AI视频，都是单镜头生成的。而OpenAI能在多角度的镜头切换中，就能实现对象的一致性，这种级别的多镜头一致性，是别的工具很难企及的。

2.Sora现在还处于成长阶段

当然，Sora当前还存在一些弱点。OpenAI表示，它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。该模型可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。再比如或许在生成的一则视频中已经咬了一口的饼干，但Sora还会保持完整的饼干形态而不是已经缺了一口的物理形态，在理解这个过程中还需要不断地训练，但应该不是一个很困难的事情。

得益于DALL·E 3所使用的扩散模型，以及GPT-4的Transformer引擎，Sora不仅能够生成满足特定要求的视频，而且能够展示出对电影拍摄语法的自发理解。Sora不仅能够一次性生成完整的视频，还能延长已生成的视频。英伟达的技术专家表示，Sora是一个数据驱动的物理引擎。它是对许多世界的模拟，无论是真实的，还是虚构的。该模拟器通过去噪和梯度学习方式，学习了复杂的渲染、“直观的”物理、长期推理和语义理解。

有人说，Sora和类似的程序将彻底改变TikTok等社交平台。可以说，我们已经很难再分清，AI和现实的界限了。不过，现在就说能够改变Tik Tok这种社交平台，或许还为时尚早，不过这个搅局过程应该不会太长了。因为Sora拥有深入的语言理解能力，能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令，并在生成的视频内容中忠实地反映这些指令。

而多镜头生成能力让我们看到了AI的成长和学习能力，Sora可以在单个生成的视频中创建多个镜头，同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。Sora的出现，预示着一个全新的视觉叙事时代的到来，它能够将人们的想象力转化为生动的动态画面，将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来，Sora正以其独特的方式，重新定义了我们与数字世界的互动。

3.Sora将对哪些从业者带来危机？

Sora的推出将为视频生成领域带来革命性的进步，也必然将对多个行业产生影响，包括但不限于广告、影视、游戏、教育、新闻等领域。它可以帮助企业和个人更快速地创作和制作视频内容，提高效率。但这也可能导致部分视频从业者面临失业的风险，尤其是近些年随着短视频的风靡，视频职业剪辑制作者，他们的前景恐令人担忧。

当然，人工智能在很多领域也可以为人类提供更多便利和支持，因此不一定会造成失业潮。相反，它可能促使视频行业朝着更高端、更创新的方向发展。如何应对科技的进步，以及由此带来的一系列的改变，才是我们必须在意的地方。众所周知，ChatGPT诞生之初，引发了国内互联网大厂，以及众多创业公司的跟进，一度上演了国内市场的百模大战。如今，Sora来了，国内企业又会如何应对？

可以说，视频生成模型Sora的诞生，也将再次引起国内企业跟进的风潮。360董事长周鸿祎表示，Sora对短视频行业有巨大的颠覆，但未必能那么快击败TikTok，更多是创作力工具。此外，他认为，中美两国的人工智能差距在拉大。对于我们的企业而言，如何投入精力和创新的尝试以及技术的积累，才是最关键的。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
STM32F745IGT6	1	STMicroelectronics	High-performance and DSP with FPU, Arm Cortex-M7 MCU with 1 Mbyte of Flash memory, 216 MHz CPU, Art Accelerator, L1 cache, SDRAM	ECAD模型下载ECAD模型	$16.29	查看
CP2102N-A02-GQFN28R	1	Silicon Laboratories Inc	USB Bus Controller, CMOS, QFN-28	ECAD模型下载ECAD模型	$2.5	查看
DS3234SN#	1	Maxim Integrated Products	Real Time Clock, Non-Volatile, 1 Timer(s), CMOS, PDSO20, 0.300 INCH, ROHS COMPLIANT, SOP-20		$10.19	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

STM32F745IGT6

STMicroelectronics

High-performance and DSP with FPU, Arm Cortex-M7 MCU with 1 Mbyte of Flash memory, 216 MHz CPU, Art Accelerator, L1 cache, SDRAM