你知道吗
自然科学

Sora来了,会砸掉谁的饭碗

更新:2024-02-22 18:04:41  手机版 

  Sora有何本领

  Sora生成的多条短视频“大片”在全网刷屏,场景逼真丝滑、细节丰富。

  这是OpenAI首次进军AI视频生成领域。据公司介绍,Sora使用Transformer架构,可根据文本指令创建现实且富有想象力的场景,生成多种风格、不同画幅、最长为一分钟的高清视频。

  换句话说,给Sora一些提示语,它就能生产出一条高质量短视频。

  OpenAI官网发布的Sora生成视频图像显示,一辆SUV行驶在盘山公路上。

  Sora还能够根据静态图像生成视频,扩展现有视频或填充缺失的帧。

  OpenAI说,Sora能深刻地理解语言,不仅理解用户文本提示,还理解所述事物在物理世界中的存在方式。“我们正在教授人工智能理解和模拟运动中的物理世界,目标是训练模型帮助人们解决需要与现实世界交互的问题。”

  不过,OpenAI官网晒出的视频作品是Sora创造的平均水准还是最高水准呢?

  OpenAI承认,目前Sora生成视频中可能包含不合逻辑的图像,混淆左右等空间细节,难以准确模拟复杂场景的物理原理和因果关系实例等。例如,一个人可能咬了一口饼干,但饼干上没有咬痕。不过,随着算力增强、模型改进,人们可能会在短期内获得更加完善、先进的视频生成功能。

  可能砸掉谁的饭碗

  OpenAI此次推出Sora更像是预览版,公众尚难以深入全面了解该模型的优缺点。OpenAI表示,目前仅主要向一些设计师和电影制作人等特定人群提供Sora访问权限,以获取有关改进该模型的反馈。公司不仅未公布训练Sora模型的数据等基础细节,也没确定何时面向公众发布。

  Sora生成视频截图

  一些分析人士认为,Sora再次凸显人工智能技术进步对现实生活和传统行业的深远影响。人工智能在视频生成领域的巨大发展前景为塑造影视产业新业态打开大门的同时,恐将颠覆现存影视产业。

  Sora推出第二天,主营图像处理、视频制作软件的奥多比公司股价应声下跌超过7%。

  好莱坞去年遭遇63年来首次编剧和演员全行业罢工,因为该行业的部分工作机会可能被人工智能取代。Sora横空出世让这一威胁变得更迫近和真切。

  让伪造更逼真难辨

  OpenAI在Sora技术报告的标题中写道,视频生成模型是“世界模拟器”。

  如果世界可以被模拟,那么真与假的边界何在?不少业内人士担心,Sora将为“深度伪造”(Deepfake)技术推波助澜。加利福尼亚大学伯克利分校信息学院副院长法里德表示:“当新闻、图像、音频、视频——任何事情都可以伪造时,那么在那个世界里,就没有什么是真实的。”

  图为2023年11月2日,在英国布莱奇利园,一名参会者经过首届人工智能安全峰会的宣传展板。新华社记者李颖摄

  针对造假顾虑,OpenAI称在真正面向公众推出产品时,将确保生成视频包含来源元数据,并推出检测视频真伪的工具。OpenAI还承诺,在产品中使用Sora前将采取安全措施,包括由“错误信息、仇恨内容和偏见等领域的专家”对模型进行对抗性测试以评估危害或风险;核查并拒绝包含极端暴力、性内容、仇恨图像、他人IP等文本输入提示等。

  不过,OpenAI承认,即便进行了广泛的研究和测试,“我们无法预测人们使用我们技术的所有有益方式和滥用我们技术的所有方式”。

  AI狂飙 能管得住吗

  科技领域颠覆式创新不断涌现,如何实现拥抱技术进步和确保社会安全的平衡,越来越受到各界关注。

  OpenAI表示,将与世界各地的政策制定者、教育工作者和艺术家合作,了解他们的担忧,确定Sora的积极使用案例,并认为从现实世界的使用中学习是创建和发布越来越安全的人工智能系统的关键组成部分。

  2023年7月7日,在瑞士日内瓦“人工智能造福人类全球峰会”上,一名参会者与仿真机器人索菲亚互动。新华社记者连漪摄

  业内人士指出,在当下治理框架、管控措施都未跟上的情况下,仅靠企业恐无法提供社会所需的人工智能安全性和信任度。

  顶级“技术咖”眼里的Sora是什么段位

  咕咚CEO申波:Sora的本质是一个“世界模拟器” 中国公司会在AI硬件和应用方面快速发展

  作为中国最大运动社交和赛事服务平台——咕咚的创始人,申波是一名不折不扣的“技术狂人”,崇拜“MySQL之父”Monty和马斯克,关注全球最新的技术及产品趋势。

  他的办公桌上总是堆满了各种技术类书籍,从Stable Diffusion,到DeepMind,再到ChatGPT,他都能信手拈来。他在朋友圈笑言,“以后退休了,得找个面朝大海春暖花开的大院子coding(编程)。”

  谈及Sora对行业的影响,申波表示,“OpenAI开发的文本到视频生成器Sora,有潜力显著影响依赖视觉内容的多个行业,特别是影视娱乐、教育和营销行业。”

  就运动健康应用领域而言,申波告诉《每日经济新闻》记者,“Sora能够以新颖的方式吸引用户,将锻炼描述或健康提示转化为引人入胜、易于跟随的视频。这将通过提供动态的互动内容来增强用户体验,比单纯的文本或静态图像更有效地激励和指导用户。”

  相比较Runway和Pika等类似产品,申波指出,“与早期主要关注生成短片的模型不同,Sora旨在生产长达一分钟的高细节视频,并致力于在视频长度上保持连贯性。此外,由于Sora能创造更引人入胜、更全面的内容,这可能使其在提供更丰富用户内容方面具有区别于其他工具的优势。本质上说Sora是一个‘世界模拟器’ 而不仅仅是文本生成视频工具。”

  图片来源:OpenAI官网截图

  谈及近年中美在人工智能领域不同的发展特点和重点,申波向每经记者分析道,“美国公司如OpenAI和Google DeepMind在生成式AI技术方面取得了重大进展,例如ChatGPT和DALL-E,这些技术引领了市场和技术趋势。中国则在应用研发和商业化方面显示出新的进展,特别是AI在教育、健康、零售和安全等领域的应用。中美之间的主要差异可能在于创新的焦点、市场应用的速度和政策环境。”

  目前,中国在生成式AI领域有哪些走在比较前面的应用场景和玩家?申波表示,“国内无论是大模型还是应用方面,都快速涌现出了一系列的创业公司,如百川智能,当然巨头也参与其中了,包括百度、阿里、腾讯等等。而且近日OPPO和魅族都发布了ALL IN AI的战略,全力开发推广AI手机。所以我觉得中国公司会在AI硬件和应用方面快速发展并引领行业,在大模型基座以及中文大模型上面缩小并赶上美国的水平。”

  图片来源:微博截图

  安克创新CIO龚银:Sora加速实现“千人千面”但也会稀释掉用户注意力

  长期活跃于粤港澳大湾区的龚银(Neil),曾任OnePlus平台中心副总裁、创始团队高管,现任安克创新CIO,他对分布式系统、高性能高可靠系统、云计算等领域保持着持续关注和实践。

  谈及Sora的横空出世,龚银表示,“这将给游戏、短视频、影视、广告和元宇宙等高品质视频内容制作的行业带来直接冲击。”

  在龚银看来,Sora与此前市面上的同类产品相比拥有诸多优势。“Sora生成内容的质量更好,(尤其是在)复杂场景、角色表情、复杂的镜头运动等方面稳定性、一致性更好,三维空间的连贯性比较好,没有断层或抽离感。视频长度进一步扩展,支持60S逼真视频,基本可商用,可以生成类似游戏等互动类数字内容,想象空间更广泛。”

  从技术架构上看,龚银分析道,“Transformer架构具备更好的学习性和扩展性,涌现能力更强。而runway和pika更多还是依靠图像转帧方式,连续性还未得到验证。我们在2023年就一直尝试runnway来制作和生成视频,但其稳定、一致性和可商用能力其实还是很弱,Sora的出现一下子解决了这些问题。”

  Sora生成的一辆SUV行驶在盘山公路上的图像 图片来源:视频截图

  就消费电子行业来说,龚银直言,“特别是我们涉及全球各区域电商平台或线上平台,依靠大量广告和内容来获取流量和打造品牌,Sora的出现对我们行业的影响利弊各半,一方面,内容的制作成本大幅下降,效率得到了质的提升,同时也有希望实现千人千面的内容;另一方面,大量内容的出现会稀释掉用户的注意力,品牌想通过内容获取用户心智的难度更大了。”

  事实上,从ChatGPT开启生成式AI时代,到国内一众玩家开启“百模大战”,再到今天Sora的横空出世,中美在人工智能领域呈现出较大的发展差异。

  “从已有的结果上看,美国在创新能力、创新环境、创新能力工程化和市场化等各方面能力目前还是全球最强的,”龚银表示。

  龚银还指出,“国内模仿能力强,业务应用层场景丰富。在具备基础设施和能力的前提下,在AI应用层面会有一些创新和突破。另外,国内擅长在已有创新的基础上集中资源办大事,需要的是一些时间。”

  谈及国内比较成熟的生成式AI应用场景和玩家时,龚银认为,“(目前)还没有看到特别成功的,一些品牌和电商其实都在摸索。在营销领域,大部分还是在文生图、文生文等方面做一些场景的尝试,比如运营活动的文案和图片、产品场景图、多语言翻译、多语言自动生成等;在研发领域,大部分是在尝试代码辅助编写,类似github和copilot。应用最多的还是在客服领域,自动服务机器人,大部分公司都有在尝试,还有一些类似AI Agent之类的应用场景。”

  原贝壳金服小微企业生态CTO史海峰:Sora惊艳之处在于对场景时空更强的理解和推测能力

  史海峰曾任贝壳金服小微企业生态CTO、饿了么北京研发中心总经理,也曾在神州数码、亚信联创长期从事电信行业业务支撑系统集成工作,参与中国移动、中国联通多个项目,具有丰富的大型业务系统研发实施经验。

  在20余年的工作历程中,史海峰以架构师的身份活跃于IT圈,曾获腾讯云最具价值专家(TVP),开设了《IT民工闲话》公众号,常自侃“大叔级 IT 民工”。

  史海峰指出,最新发布的Sora其惊艳之处不仅仅在于时间,还包括空间的延伸、视角的变换,需要“脑补”更多细节,体现了对场景时空更强的理解和推测能力。

  “从文字生成文字,再到文字生成图片是一个飞跃,从图片到生成目前的无声视频(或者从单帧视频到多帧),似乎还挺顺理成章。什么时候通过音频能够把空间进一步体现,那会比现在更加惊艳,另一个维度则是实时交互。再往后大概又是AR、VR、元宇宙了。”

  Sora生成的多机位视频 图片来源:视频截图

  “作为提升生产力、降低成本门槛的工具,从C端和B端分别看的话,对UGC和PGC都会产生影响,到底有多大冲击还很难判断。在纯CG动画方面,可能大幅降低制作成本。如果支持对视频的加工再创作,在短视频、影视制作方面也可能带来新的模式,会涉及到影视、广告、社交、教育、游戏等行业。(同时)也会给反诈、维护知识产权带来更高要求,”史海峰告诉记者。

  谈及中美在人工智能领域的发展差异,史海峰表示,“在AI时代,芯片是基座,数据是生产要素,是训练AI的养料,而最重要的是人才。(人工智能)竞争门槛高、迭代快,在达到技术上限前,不适合弯道超车或者体现后发优势,我们必须要追赶,并脚踏实地。”


看过《Sora来了,会砸掉谁的饭碗》的人还看了以下文章

神州十一飞船成功返回着陆,宇航员在太空飞行33天,这显示了我国航天科学技术领先世界水平,值得我们骄傲喝彩,为两位英雄航天员点赞,自行打开舱门,状态......

天舟货运飞船是对中国未来空间站在轨运行期间,提供补给支持的飞船,那么天舟货运飞船发射时间是什么时候呢?天舟一号货运飞船什么时候发射?下面我们一起来......

黑莓在北京时间9月28日宣布重大消息,公司将关闭手机业务部门。曾经风靡全球的黑莓手机就此退出历史舞台,这也让人倍感唏嘘?那么究竟是什么原因呢?而黑......

昨晚播出的《开学第一课》中,有着女航天员王亚平的现身,同时也有着新长征路上神舟十一号的相关信息,让我们了解到了航天员的生活成长,让我们先来了解下天......

昨晚播出的《开学第一课》中,有着女航天员王亚平的现身,同时也有着新长征路上神舟十一号的相关信息,让我们了解到了航天员的生活成长,让我们先来了解下天......

编辑推荐
最新文章