凭借一段简单的文字描述,便能生成画质极高的60秒视频。
继ChatGPT之后,OpenAI再一次让世界沸腾!!!而背后更火的是……
Sora问世,AGI提速近10年
2月16日,当全中国还沉浸在或抢红包,或抢回程票,或噼里啪啦放鞭炮的浓郁新春氛围中时,大洋彼岸的OpenAI悄无声息地发布了其首个文生视频模型Sora。此时距离ChatGPT的推出,不过一年光景。
目前,OpenAI在官网上公布了多个演示视频,均由Sora根据提示词生成,时长可达1分钟,比如近期刷屏的“东京街道时尚女郎”。
提示词:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
根据上述提示词,Sora生成一段视频,视频中不仅还原了文字内容,人物、背景、光影效果等细节也都极为真实,堪比实景拍摄。除此之外,包括踏雪而来的猛犸象、缓缓前进的舞龙队伍等演示视频也在多个社交媒体平台反复转发播放,登顶各大热搜榜。
从Demo来看,无论是视频的分辨率、文字理解,还是稳定性、保真度等方面,Sora都堪称为当前最优。在这之前,业内主流的AI生成视频时长只能做到4-16秒,部分甚至“卡成PPT”。
两相对比下,Sora带来的惊艳不言而喻。据OpenAI介绍,Sora可根据文本生成复杂的场景,不仅包括多个角色,还有特定的动作类型,以及对角色和背景的细节描绘,也可以直接输入图片或视频进行编辑调整。其他惊人的本领还有跟随对象移动镜头、多机位融合转换不相干的场景等。
尽管OpenAI并未在其技术报告中提及与Sora训练成本、模型架构等相关的内容,但却强调了一点——Sora不是单纯的视频生成模型,也不只是视频行业颠覆者,而是“世界的模拟器”,它打开了一条通往模拟物理世界的有效路径。
面对如此惊人的表现,连特斯拉的CEO马斯克也禁不住感叹:“人类认赌服输。”360创始人周鸿祎更是在微博发文表示:Sora意味着AGI(通用人工智能)实现将从10年缩短到1年。
图源:截自@周鸿祎新浪微博
对于周鸿祎的这一预测,我们大概可以这么拆解:
Sora结合了文本和图像处理的能力,这种多模态学习正是AGI发展的一个重要方向;同时,Sora展示了AI在理解世界运动和物理规律方面的能力,这是迈向AGI的关键一步——AGI要求机器能够理解并模拟真实世界;
理解了过后,Sora根据自己的理解生成高质量的视频,这不仅仅是简单的图像拼接,更多涉及到AI的自主创作能力,这是AGI的重要组成部分;Sora的出现也将推动算力基础设施、多模态大模型等相关技术的发展,预示着AI技术将在理解和模拟现实世界、提升创造力、拓展应用场景等方面取得更大的进步,为AGI的到来逐渐铺平道路。
简单总结,Sora推出后之所以能迅速爆火,主要归于以下几点:
1、学习能力:Sora通过大量数据进行学习,理解和模仿视频内容,这种学习能力使其能够生成栩栩如生的视频内容,且内容长度及质量远超市面上其他AI视频模型;
2、进化速度:Sora的学习能力标志着AI进化速度的加快。通过视频学习可快速吸收和理解世界各种复杂场景和动态过程,这对于AI技术的发展具有重要意义;
3、AGI加速到来:Sora的出现被业内视为通往通用人工智能的一步。AGI即能够执行任何智能任务的AI系统,而Sora在视频理解和生成方面的表现,似乎预示着AGI的到来比预期的要快;
4、潜在应用:随着Sora后续不断优化成熟,未来或应用于多个领域,包括但不限于娱乐、教育、监控、虚拟现实等,这些应用都将对社会产生深远影响。
多方因素的共同作用下,Sora成为了AI视频生成领域的一个重要里程碑。不过,Sora目前也并非完美,OpenAI的技术报告中提到,Sora还存在不准确的物理建模和非自然物体“变形”的例子,以及在模拟对象和多个角色之间的复杂交互,对模型来说通常具有挑战性等。
比Sora更火的,是“Sora卖课人”
毫无疑问,Sora真的很火,它又一次让人们感受到了AI技术的魅力。与此同时,另一波清奇的景象也诞生了——之所以用“清奇”这个词来形容,是因为在朋友圈以及各大电商平台上,Sora已经“被”开启或免费或付费的课程教学了,然而OpenAI至今都还没对公众开放Sora的测试权限。
闻风赶来的投机者们,迅速掀起一波“Sora卖课潮”。
“全球物联网观察”在多个电商或社交平台上搜索Sora相关的关键词发现,已有不少Sora教程上线,课程形式有视频讲解教学,也有纸质文档资料或电子文档资料,价格从几元至上百元不等,部分电商平台店铺信息显示,购买课程的人还不少。
而近期最为出圈的,当属其中的李一舟——一位在抖音、小红书直播卖AI课程的自媒体博主。据业内流传的数据,其通过卖课已经实现收入过亿。网上甚至有人做出“神图”,把李一舟和OpenAI的CEO Sam Altman并称为“中美两大AI巨头”,一位靠AI技术,一位靠AI卖课。
另据《新京报》报道,记者还发现有以“免费赠送Sora资料”为由,但疑似进群拉新并诱导付费的“套路”。报道指出,在购买课程时,有AI“讲师”直言不讳地表示,懂得AI的技术人员不一定能通过AI赚到钱,因为AI在B端落地很难,但不懂AI技术的人照样可以通过卖课赚到钱,“我们的作用是抹平AI‘信息差’,我自己懂不懂AI不重要。”
更为“清奇”的是,所谓的“Sora教程”,主要内容包括Sora的介绍、生成的视频、以及部分媒体平台发布的对Sora进行分析解读的文章,其中90%的内容都是能在OpenAI官网或其他公开平台上找到的资料。也就是说,教程中只是对这些公开的资料进行整理汇总。
怎么说呢!用之前的一个网络热词来形容,真是妥妥的一波“割韭菜”。
然而就是这尚未开启公测的Sora,已经让一波卖课人赚的盆满钵满了。据多家媒体报道,Sora出来后,有人卖了2w多份课程,一天到手200万元。
显然,在文生视频这一市场未及成熟之时,掘金者们已经通过知识付费挖来了第一桶金。这一现象背后折射出的,正是当下人们对AI的加速进化感到焦虑。人工智能的大时代已经真正到来,每个人都切实感受着这波AI热潮,生怕一不留神就被时代的浪潮拍落。
Sora怎么又没出现在中国?
从ChatGPT到Sora,两度惊艳世界的AI模型,均诞生自美国。这熟悉的光景,距离上一次出现仅过去一年。所以,国内探讨的热度话题,在继“ChatGPT为何没诞生在中国?”之后,出现了龙年版本的“Sora为何没诞生在中国?”。
中美作为世界居前的两大经济体,各自在AI领域的发展日益成为全球关注的焦点。聊到这里,我们首先要做的是客观地正视中美两国人工智能发展的现状及差距。就当前的AI发展现状来看,美国在该领域的发展得益于其强大的科研实力、创新生态和政策支持。
尤其在科研力量方面,美国拥有众多顶尖的AI研究机构和企业,如斯坦福大学、麻省理工学院、谷歌、微软、OpenAI等,这些高校和企业在机器学习、自然语言处理、计算机视觉等领域已经取得了一系列突破性成果。
以爆火的大模型为例,公开数据显示,截至2023年5月,美国拥有10亿级参数规模以上的基础大模型已超100个。高盛方面预计,到2025年,美国大模型方面相关的投资可达千亿美元,约占全球份额的一半。另外,在大模型的行业应用方面,美国的大模型主要应用在金融、教育、医疗等领域,其成熟的商业环境提供了不少优势。
国内的起步时间相对更晚,在算法创新、芯片设计、软件开发等方面,优势并不明显。但从发展速度来说,中国绝对不慢。
据《金融时报》报道,目前在全球排名前10的大模型研发机构中,中国的百度、清华大学、阿里巴巴达摩院、BAAI智源研究院已占据其中四席。国内的科大讯飞、腾讯、华为等也正展露出强劲的发展势头,特别是在语音识别、图像识别、智能推荐等方面取得了显著成就。
SuperCLUE的2023年中文大模型基准测评报告显示,自ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。2023年大模型技术步入快速发展阶段,全国范围内大模型产品已超过100种。其中包括百度的文心一言、阿里的通义千问、科大讯飞的星火大模型等。
此次Sora引爆的文生视频赛道,去年就已在国内发酵。
2023年11月,字节跳动推出文生视频模型PixelDance,用户提供一张指导图片+文本描述,PixelDance 就能生成有高度一致性且有丰富动态性的视频;阿里巴巴上线Animate Anyone模型,只需人物照片配合骨骼动画引导,即可生成自然的动画视频;百度发布文生视频工具“度加剪辑”,号称“可以一键获取最新热点、AI生成文案、一键生成视频”。
而就在近几日Sora引发大众探讨中美AI发展状况之际,更多有关国内文生视频赛道的进展频频涌出。
据《中国基金报》报道,一位接近科大讯飞人士透露,科大讯飞目前内部已经开始文生视频进一步攻关研发。该人士表示,此前的讯飞星火大模型已经拥有相对基础的文生视频功能。
2月19日,虹软科技方面宣布,其核心大模型技术引擎——虹软ArcMuse再次升级。而此次升级将支持面向商拍的商业视频自动生成。
云从科技也表示,其从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模,通过文本和音频实现对图像和视频内容进行生成、控制、编辑。
在人工智能的发展上,国内的方向并没有错,各大企业的执行力也很强。所以,国产Sora必会出现,只是时间问题,百花齐放的画面已经可以预见。
全员回答2024:拥抱AI的大时代
人工智能作为引领未来科技革命和产业变革的关键力量,已成为全球科技创新的竞争高地。尤其在刚过去的2023年及眼下的2024年,大众对这股关键力量的感受更为深刻。春节后辅一开工,魅族、OPPO、吉利等相继宣布最新的AI计划,全员拥抱AI的大幕,已然开启。
OPPO创始人、首席执行官陈明永发表致全体员工的内部信。他表示,2024年是AI手机元年。未来五年,AI对手机行业的影响,完全可以比肩当年智能手机替代功能机。OPPO今年的一大重要举措便是成立AI中心,加速资源向AI集中;
魅族宣布将All in AI,停止传统“智能手机”新项目开发,将全力投入明日设备AI For New Generations,将面向AI时代全新打造的手机端操作系统进行更新;
小鹏汽车董事长兼CEO何小鹏在开工内部信中指出,2024年是小鹏率先迈向高阶智驾、并从中国走向全球的第一年,其计划今年在“以智驾为核心的AI技术”方面投入35亿元的研发资源;
吉利汽车集团CEO淦家阅在开工日发布的新春寄语中提到:没有AI的只是出行工具,具备AI的才是智能伙伴。坚信接下来AI技术对汽车的关键作用;
联想的开工首条微博就是围绕AI PC对新款发布进行预热,其2024款全系搭载AMD Ryzen 7 8845H,冠以“AI锐龙版”称号。
2024年开年就掀起的这波AI大浪潮,让这个世界止不住兴奋。不过在兴奋之余,我们要警惕,AI技术的出现,也带来了前所未有的挑战和隐患。人工智能生成导致的虚假信息和“诈骗”案例,层出不穷。在此基础上,关于AI监管的缰绳更要紧紧拽住。
据悉,目前“数据获取+应用方式”是AI监管的两大问题。这两个核心问题如果处理不当,将会严重影响人工智能的发展和利用。从数据获取方面看,采集和获取不仅涉及到数据的产权问题,还涉及到国家安全和个人隐私。
从人工智能的应用方式来看,AI所展示出的强大的信息处理能力,本质上是提升人类对信息的利用效率和效果。而人类社会有其基于特定国家和文化的法律法规和道德约束,AI发展也要充分遵从法律法规和道德伦理。
写在最后
央视新闻在报道中指出,从某种意义上讲,对人工智能的利用将会在国家之间、机构之间,甚至包括人与人之间形成新的代差和新的数字鸿沟,并推动人类从农业文明、工业文明走向数字文明。因此,能否充分学习和利用人工智能会对人类产生分化,甚至对人类文明产生巨大影响。
毫无疑问,今年将是一个“AI大年”,人工智能背后所蕴含的巨大潜力与价值正在凸显,新一轮的智能革命来临,这一次,将是真真正正的“AI平民化”。