加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 1.颠覆性的革命时代来了?
    • 2.Sora现在还处于成长阶段
    • 3.Sora将对哪些从业者带来危机?
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

OpenAI扔出了一颗深水炸弹,文本生成视频来了

02/18 10:10
2900
阅读需 7 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

当奥特曼发布OpenAI首个视频生成模型Sora之后,业界震撼了,一些人感觉到自己的职业生涯要Over了。Sora能生成长达1分钟的高清视频,要知道这不是拼接和调用,是通过AI自主地生成的视频内容,而且是一镜到底。OpenAI表示,正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。根据文本提示生成视频,现在开始了。

1.颠覆性的革命时代来了?

目前Sora已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。Sora还可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。

简单地说,Sora是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度,一次生成多帧的视频,确保画面主体即使暂时离开视野也能保持不变。与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。OpenAI将视频和图像表示为patch,类似于GPT中的token。通过这种统一的数据表示方式,可以在比以前更广泛的视觉数据上训练模型,涵盖不同的持续时间、分辨率和纵横比。

除了能够仅根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地让图像内容动起来并关注小细节。该模型还可以获取现有视频并对其进行扩展或填充缺失的帧,Sora 是能够理解和模拟现实世界的模型的基础,OpenAI相信这一功能将成为实现AGI的重要里程碑。

借助于对语言的深刻理解,Sora能够准确地理解用户指令中所表达的需求,把握这些元素在现实世界中的表现形式。也就是说,Sora创造出的角色,能够表达丰富的情感。要知道,以前的AI视频,都是单镜头生成的。而OpenAI能在多角度的镜头切换中,就能实现对象的一致性,这种级别的多镜头一致性,是别的工具很难企及的。

2.Sora现在还处于成长阶段

当然,Sora当前还存在一些弱点。OpenAI表示,它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。该模型可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。再比如或许在生成的一则视频中已经咬了一口的饼干,但Sora还会保持完整的饼干形态而不是已经缺了一口的物理形态,在理解这个过程中还需要不断地训练,但应该不是一个很困难的事情。

得益于DALL·E 3所使用的扩散模型,以及GPT-4的Transformer引擎,Sora不仅能够生成满足特定要求的视频,而且能够展示出对电影拍摄语法的自发理解。Sora不仅能够一次性生成完整的视频,还能延长已生成的视频。英伟达的技术专家表示,Sora是一个数据驱动的物理引擎。它是对许多世界的模拟,无论是真实的,还是虚构的。该模拟器通过去噪和梯度学习方式,学习了复杂的渲染、“直观的”物理、长期推理和语义理解。

有人说,Sora和类似的程序将彻底改变TikTok等社交平台。可以说,我们已经很难再分清,AI和现实的界限了。不过,现在就说能够改变Tik Tok这种社交平台,或许还为时尚早,不过这个搅局过程应该不会太长了。因为Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。

而多镜头生成能力让我们看到了AI的成长和学习能力,Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。Sora的出现,预示着一个全新的视觉叙事时代的到来,它能够将人们的想象力转化为生动的动态画面,将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来,Sora正以其独特的方式,重新定义了我们与数字世界的互动。

3.Sora将对哪些从业者带来危机?

Sora的推出将为视频生成领域带来革命性的进步,也必然将对多个行业产生影响,包括但不限于广告、影视、游戏、教育、新闻等领域。它可以帮助企业和个人更快速地创作和制作视频内容,提高效率。但这也可能导致部分视频从业者面临失业的风险,尤其是近些年随着短视频的风靡,视频职业剪辑制作者,他们的前景恐令人担忧。

当然,人工智能在很多领域也可以为人类提供更多便利和支持,因此不一定会造成失业潮。相反,它可能促使视频行业朝着更高端、更创新的方向发展。如何应对科技的进步,以及由此带来的一系列的改变,才是我们必须在意的地方。众所周知,ChatGPT诞生之初,引发了国内互联网大厂,以及众多创业公司的跟进,一度上演了国内市场的百模大战。如今,Sora来了,国内企业又会如何应对?

可以说,视频生成模型Sora的诞生,也将再次引起国内企业跟进的风潮。360董事长周鸿祎表示,Sora对短视频行业有巨大的颠覆,但未必能那么快击败TikTok,更多是创作力工具。此外,他认为,中美两国的人工智能差距在拉大。对于我们的企业而言,如何投入精力和创新的尝试以及技术的积累,才是最关键的。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
STM32F407VGT6 1 STMicroelectronics High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC

ECAD模型

下载ECAD模型
$20.39 查看
ATXMEGA64A4U-CU 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 49VFBGA
$4.53 查看
ATXMEGA128A4U-MHR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQCC44, 7 X 7 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VKKD-3, VQFN-44
$4.48 查看

相关推荐

电子产业图谱

小刀马(马振贵),IT独立观察家,互联网金融观察家。曾入选《百度新闻•记者网络影响力排行榜 科技类记者影响力TOP10》,搜狐IT优秀评论家。多家媒体的优质作者。多家媒体的专栏作者。从事IT、通信、移动网络、电子商务、消费电子产品、互联网金融等方面写作达二十年。著有《互联网+时代 传统企业化危为机》一书(电子工业出版社)。