Sora并非完美，业界为何大呼“震撼”？

2024年春节档，科技厂商“AI大片”的压轴戏是这两天OpenAI亮出的视频模型Sora，它掀起了“文生视频热”，同时也吹响了新一轮大模型进击的号角。

据悉，受益于Sora的大火，OpenAI的估值狂飙275%，在最新一轮融资中有望超过800亿美元（约合5755亿元），跃升为仅次于字节跳动（2250亿美元）和SpaceX（1500亿美元）的全球第三大独角兽。

为什么偏偏是Sora？

明明还没正式开放，Sora的大名已经传遍国内外科技圈。走在东京街道上的时尚女郎、缓缓前进的舞龙队伍、踏雪而来的猛犸象、海上自行车比赛……在各大社交媒体上，Sora的Demo（演示）视频被反复播放，登顶热搜。与之形成鲜明对比的是，几乎同时发布的谷歌Gemini 1.5 PRO却似乎被遗忘在了角落。

360总裁周鸿祎高度评价了Sora。他指出，Sora的面世意味着实现AGI（通用人工智能）的时间将从10年缩短到一两年。在他看来，Sora只是小试牛刀，它展现的不仅仅是视频制作能力，而是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。SpaceX创始人马斯克则直接在社交媒体上发布了“gg humans（人类输了）”的感叹。“gg”是电子竞技中常用的术语，意为“Good Games”，通常用来表示对对手的认可和自己认输的态度。

实际上，AI视频生成模型并不是一个新鲜事物。谷歌早已发布零镜头视频生成模型VideoPoet，百度也推出了视频生成模型UniVG，腾讯发布了视频生成模型VideoCrafter2，阿里有自研的视频生成模型Animate Anyone，甚至AI初创企业Pika的视频生成平台Pika 1.0已率先面向所有用户开放网页端访问权限。为什么偏偏是OpenAI发布的Sora“一炮而红”？

从业内反应来看，Sora最令人震撼的技术突破莫过于视频时长的巨大提升。Sora能生成长达1分钟的视频，远超市面上其他AI视频模型。此前，Runway能够生成4秒的视频，用户可以将其最多延长至16秒，这已经是AI生成视频在2023年所能达到的最长时长纪录：Stable Video能提供4秒的视频，Pika则提供3秒的视频。

Sora实现视频时长的突破，背后的大功臣是其采用的Diffusion transformer模型。该模型融合了扩散模型与自回归模型的双重特性，在训练GPT这类大语言模型的时候，OpenAI把句子拆分成tokens（词符），放到transformer进行训练。在Sora中，则是将不同尺寸、分辨率的视频拆分成patch（视觉补丁），把patch当作tokens放到transformer进行训练。训练完成后再通过解码，把tokens“渲染”成人们可以看得懂的像素。

另一个震撼性突破在于Sora展示出了对物理世界部分规律的理解，这是过去文生视频模型的一大痛点。专家分析指出，Sora带有“世界模型”的特质，这让其在逼真度上更胜一筹。

所谓“世界模型”便是对真实的物理世界进行建模，让机器能够像人类一样，对世界产生一个全面而准确的认知。这一特质会使AI视频生成更流畅、更符合逻辑。比如，咬一口饼干，饼干上一定会留下齿痕，这样的逻辑对于人类来说非常简单，而要让AI模型领悟前后两帧画面之间的逻辑关联则非常困难。它需要从大量数据中去学习和掌握生成语言、图像或视频的某种方法，从而产生难以解释的“涌现”能力。

“Sora的成功并非偶然。”Forrester副总裁、研究总监戴鲲在接受《中国电子报》记者采访时表示，这背后有四大推动因素。首先，近期不同领域的最新技术研究进展是促使Sora实现技术突破的关键。其次，OpenAI从2016年起就将生成式模型作为战略方向，长期的技术创新投入积累是其成功的核心要素。另外，高质量的海量数据和大规模高性能硬件投入是必要保证。

Stability AI的CEO埃马德·莫斯塔克（Emad Mostaque）在社交平台上感慨称“奥特曼（OpenAI的创始人兼CEO）真是一个魔术师”，并表示Sora可以被视为AI视频的GPT3，将在未来几年内得到扩展、细化、调整和优化。

Sora并非完美无瑕

“与大语言模型相比，文生视频模型实现难度显然更大。在技术实现上面临的挑战主要体现在数据复杂性、计算资源需求和多模态融合三方面。”戴鲲表示。

以数据复杂性为例，首先大语言模型处理的是文本序列，而视频由连续帧组成，每一帧都是一个高维图像，文生视频模型需要同时处理空间和时间两个维度的数据，不仅需要理解单个帧内的像素级关系，还要捕捉帧与帧之间的动态变化和时序依赖，确保生成的视频能够平滑过渡和自然动作，这要求模型具备极高的时空推理能力以及对目标对象行为模式的理解；其次，大规模高质量的标注视频数据集比大规模文本数据集更难获取，视频数据涉及对颜色、亮度、运动轨迹等多种视觉特征的编码和解码，它的存储和预处理也更为复杂。

与此同时，算力资源的供给也是一个大问题。视频生成涉及大量的视觉信息处理，所需计算量远超文本生成。模型可能需要在数以亿计的参数上进行训练，消耗巨大的GPU算力资源。此外，文生视频模型需要结合音频、文本等多个模态信息，这就需要模型能够有效融合不同类型的输入信号，并输出相应的跨模态内容，无疑将大大增加模型设计和训练的难度。

现阶段的Sora并非完美无瑕。细心的网民们也在公开的Demo视频中扒出了不少生成式AI的漏洞，比如随着时间推移，有的人物、动物或物品会消失、变形或者生出分身；或者出现一些违背物理常识的画面，比如穿过篮筐的篮球、悬浮移动的椅子。

OpenAI在技术报告中坦诚地公布了Sora的不成熟之处，表示Sora可能难以准确模拟复杂场景的物理原理，可能无法理解因果关系，可能混淆提示的空间细节，可能难以精确描述随着时间推移发生的事件，如遵循特定的相机轨迹等。

英伟达高级科学家Jim Fan指出，目前Sora对涌现物理的理解是脆弱的，远非完美，仍会产生严重、不符合常识的幻觉，还不能很好地掌握物体间的相互作用。

“Sora对真实世界的模拟还有很大提升空间，就目前的展示内容来看，并不意味着它已经‘读懂了’物理规律。”多年从事计算机视觉研究的上海交通大学人工智能研究院副教授王韫博认为。

图灵奖得主、Meta首席AI科学家杨立昆（Yann LeCun）在社交平台上表示：“一个AI模型可以生成逼真的视频，但并不代表这个AI可以理解世界。”他曾提出过生成式模型不适合处理视频的观点，并指出目前最有希望（落地）的是图像识别模型，并不是生成式模型。

此外，Sora的出现也进一步加剧了人们对于AI伦理和安全治理方面的担忧。中国人民大学哲学院教授、国家发展与战略研究院研究员刘永谋指出，在AI短视频建构的世界中，显然不能将眼睛看到的东西作为判断依据。Sora的应用，无疑将进一步加剧当代社会的“后真相”状况，真实与虚拟的边界进一步模糊，甚至完全被消解。“这需要我们高度警惕”。

DCCI互联网研究院院长刘兴亮表示，随着AI生成内容与现实之间的界限变得越来越模糊，如何确保内容的真实性和透明性成为了一个重要问题。此外，版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战，通过制定相关政策、法律和伦理准则来确保技术的健康发展，同时保护个人和社会的利益不受侵害。

OpenAI仍在进击中

当前，OpenAI的估值在Sora的驱动下，正在大幅飙升。市场预计，在最新一轮由风投公司Thrive Capital牵头的融资中，OpenAI的估值有望超过800亿美元（约合5755亿元）。而作为对比，OpenAI去年年初发布ChatGPT的时候，该公司的估值大约为290亿美元（约合2086亿元）。

然而，OpenAI在生成式AI领域的野心显然不止于此。除了先后甩出“ChatGPT”和“Sora”两张“王炸”，攻破自然语言模型和视频生成模型两座“堡垒”，OpenAI还公布了筹资7万亿美元建立“芯片帝国”的计划。这笔巨额投资相当于美国GDP（国内生产总值）的25%，中国GDP的40%，全球GDP的10%。

OpenAI CEO奥特曼透露，目前OpenAI每天生成约1000亿个单词，需要大量的GPU（图形处理器）芯片进行训练计算——这或许是奥特曼“造芯”的重要原因之一。此前，他曾多次“抱怨”AI芯片短缺问题，称目前英伟达的芯片产能已不足以满足未来的需求。

据业内人士估算，ChatGPT训练一次大约需要2.5万块英伟达A100芯片。如果训练GPT-5，则还需要5万张英伟达H100芯片。市场分析认为，随着GPT模型的不断迭代升级，未来GPT-5或将出现无“芯”可用的情况。所以对于OpenAI而言，下场造芯是顺理成章，也是必然选择。

1月20日消息，阿尔特曼正在与中东阿布扎比G42基金、日本软银集团等全球投资者筹集超过80亿美元资金，成立一家全新 AI 芯片公司，目标是利用资金建立一个工厂网络来制造芯片，直接对标英伟达，目前谈判仍处于早期阶段。1月25日，奥特曼在韩国与存储芯片龙头SK海力士、三星电子集团的高管会面，重点提及构建“AI 芯片联盟”，双方或将在 AI 芯片设计、制造等方面与三星和SK集团合作。

除了建厂和供应链合作之外，OpenAI还至少投资了 3 家芯片公司，包括美国知名算力芯片公司Cerebras（简化芯片制造流程）、芯片初创企业Rain Neuromorphics（擅长算法训练）、Atomic Semi（致力于简化芯片制造流程，实现快速生产，降低芯片成本）。

作为科技圈的“网红”公司，OpenAI的一举一动都会引发业界高度关注。从自然语言模型ChatGPT到视频生成模型Sora，再到AI芯片产业链，OpenAI在生成式AI领域的布局将帮助其确立在算法和算力上的优势，进而向AGI高地发起总攻。不过，正如杨立昆所言，人工智能技术仍需在抽象表征空间中不断探索和发展。OpenAI能否继续保持领先地位，抢先奔赴AGI的未来，仍有待时间揭晓。

作者：宋婧，编辑：赵晨，美编：马丽亚，监制：连晓东

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
STM32F103CBT6	1	STMicroelectronics	Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN	ECAD模型下载ECAD模型	$11.49	查看
ATXMEGA256C3-AU	1	Microchip Technology Inc	IC MCU 8BIT 256KB FLASH 64TQFP		$9	查看
MK66FN2M0VLQ18R	1	NXP Semiconductors	RISC MICROCONTROLLER		$54.39	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

STM32F103CBT6

STMicroelectronics

Mainstream Performance line, Arm Cortex-M3 MCU with 128 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN