卡兹克X得到丨现实不存在了我跟得到一起聊了聊关于Sora的一切
编者荐语:
上周五受邀去得到采访,跟他们一起聊一聊关于Sora的问题~形成了这片文章和视频,希望大家喜欢,如果能学到一点点东西,那就更好了~
以下文章来源于罗辑思维 ,作者人均老师
罗辑思维 .
关注罗辑思维,我们一起终身学习。
最近 Sora 突然爆火,一时之间刷遍朋友圈,它是 OpenAI 推出的首个视频生成模型, 根据用户提供的文字信息,生成跟真实世界达到70%相似度的视频,生成的视频长达 1 分钟,保持高质量、连贯性。
Sora 会对人工智能、乃至人类社会带来什么影响?为什么会在科技圈产生现象级影响力?本期我们邀请到了公众号 「数字生命卡兹克」主理人,AIGC(人工智能自动生成内容)领域的资深实践者卡兹克, 给你带来一节关于人工智能的小课。
(以下为文字版内容)
Q1
Sora 为什么会产生现象级影响力?
如果直接来解释 Sora 为什么会产生现象级影响力,那就要用到「数字生命卡兹克」公众号里那句话,叫 “现实不存在了”。 当然,可能还是有很多人不能理解人们吹爆它“炸裂”、“史诗级”的根据是啥?所以需要跟以往的AI视频做对比。
以往的 AI 视频,一直有四个问题:
第一个是时长。 在旧有的AI视频,比如 Runway 和 Pika 里面,它们的时长最多只有 4 秒钟的时间。虽然它们有个功能叫做加 4 秒,最多能加到 16 秒,但是到了 4 秒钟以后,视频基本已经是不可用状态了。对于一些影视从业者去用的时候,4s 的时长,肯定是不够的,比如说一个运镜或者是表达人物关系的动作,都需要十几秒或者二十秒时间,这样的镜头才有张力。
但是现在 Sora 能支持 60 秒的时长,比如女生在霓虹灯下走路的那个视频,那个一镜到底,这对于以前AI视频是一个降维式的打击。

第二个是单视频多角度。 在以前的 AI 视频中,一次性只能生成一个镜头,分镜都是需要人为自己去设计的,如果你不是一个专业的影视从业者,那么你对于怎么写一个好故事其实是非常吃力的。
Sora 一出现可以看到,这个问题已经不是问题。 比如一只狼在月夜中的视频,里面就有非常多不同的镜头 ,刚开始是一个大的远景, 它在山上去嚎叫,然后切到一个近景,Sora 会帮你把这些分镜的东西全部设计好, 把门槛再一步的降低,让普通人也能上手。
第三个是一致性。 以前,如果要做一个一分钟的短片,以现在 4s 一个片段的技术,可能需要十几个这样的片段,每一个片段都作为独立存在,那么一致性就很难去保证了,每一个片段之间的人和人可能都会变形。比如说第一个片段是绑着马尾辫的女孩,到了第二个片段可能就变成了双马尾,或者是一个齐刘海儿等等。Sora 目前看下来也是有这个问题,但是它支持 60 秒,也支持单视频多角度,所以它能在一个片段里面用长时间以及单视频多角度镜头把环境的一致性解决掉。在 Sora 的片段里面,他们的环境的一致性,包括人物的一致性是非常非常的稳定的。
第四个就是最重要的一点,就是世界模型。 人们喜欢看这些影视作品,其实更喜欢看的是里面的人物关系镜头,或者是一些冲突镜头,比如说一拳打在别人脸上,要看他的肌肉在脸上颤抖,才能感受到冲击力。但是在过往的 AI 视频里面,它做出来的画面还是偏空镜形式,人物动作幅度不大,想让它走起来都很难,更别说这种人互相打架的镜头。但是从 Sora 里面可以看到,已经有很多很多的物理规律了,比如说猫在踩奶,或者是车在山间开,有各种各样的灰尘,这些已经做得已经非常好了。虽然他们本身的世界模型可以看到还非常不完善,我们可以看到至少有 0.2 到 0.3 的进度。
Q2
Sora 对于我们有哪些机遇和挑战?
我其实觉得所有只要跟视频有关的行业,都逃不了冲击,甚至跟文字有关的行业可能也会受到一些冲击,但是这个是偏正向的。 比如说我是一个编辑,我只能用文字稿产出,但是我现在有了这个东西以后,我可能变成一些视频形式的产出了,这个是正向的。对于原有做视频行业的人,却有非常强的行业冲击。
我举个例子,电影行业有一个成本非常高的行业就是特效。但是特效贵到离谱,我们可以看到 Sora 里面其实已经把一些特效东西给展示出来。它有一个非常典型的镜头,是一个由花朵组成的一只老虎,然后在空中散开,变成一堆粒子,粒子完以后再组成一只老虎。如果你用特效去做,那个成本非常高,而且非常贵,你本身这个东西可能要几百万一个镜头,我现在一句话就给你干完了,所以 对过往的影视行业特效这帮从业者会有非常强的冲击。
对于普通人来说,普通人之前最大的门槛是技术能力,每个人都有自己的想法,也都有自己的表达欲,那么把这些想法变成一个作品,中间这一个步骤我们称为一个技术的实现能力。对于普通人来说技术实现能力其实是非常难,在最开始没有抖音的时候,在视频领域,普通人想拍一个这种东西,它表达的成本非常高。直到抖音出现以后,把整个拍摄的门槛以及像特效、做音效等等给降低了,你会发现越来越多的普通人开始表达自己的想法了,把自己的创作欲给释放出来,这其实就是一个技术能力门槛的降低。
那么 AI 对于这些冲击力最大的是它的技术门槛又一步的降低了,我不需要再去学什么剪辑手法,我不需要再去想着怎么把特效实现出来。人人都可创作的时代,在过去如果说只影响1亿人的话,那么后面可能影响 20 亿、 30 亿人,越来越多的普通人都可以作为创作者去表达,这个是我觉得对于普通人最强的一个冲击。
Q3
Sora 现在面对的挑战是什么?
我觉得像这种东西对于从业者来说有两个挑战, 第一个可控性,第二个世界模型。
真正不把AI视频作为玩具,而是把它当做一个生产力工具的,还是这帮做广告的、做影视的、做综艺的、做短片短剧的从业者。这帮专业者他们需要的,是除了生成视频之外,还要允许有修改的能力。而 Sora 目前看来因为它并没有产品出来,它面世给大家看的还是一个模型。从当前这个角度看,它是没有任何可控性可言的。
第二个还是世界模型,虽然 Sora 的世界模型已经给大家有足够的冲击力,但是我们还是能看到它里面有非常多不符合物理现实的地方,比如,最经典的一个狗从这个窗户上跳到那个窗户上,你会发现那是一只猫的动作,那不是狗的动作,这个其实就是 它们懂一些物理规律,但是懂得不多, 这个也是它们需要再去逐步去加强的。
Q4
《流浪地球3》AI版预告片背后的创作心得
去年 8 月份,我做了第一部预告片,就是《流浪地球3》,当时正好被郭导也看到,在国内有一些名气。
以前,如果我们要做一个 30 秒的 3D 动画,需要先去列一个大概的故事大纲,然后把它的分镜全部做好,去一个一个按照我的故事,每一秒或者每一帧做出来,最后再拼接。
我当时在做《流浪地球3》预告片的时候,先把它的大纲大概列了一下,然后用手画了 50 个左右的分镜,我把每个分镜对应成提示词,再拿去 Midjourney 里面画图。这个时候发现 AI 根本不会按照你的想法来,包括一些人物之间的关系镜头是做不了的,在 Midjourney 的第一步漏洞里面就卡住了。


于是最后索性我全都不要了,没有分镜,没有故事,也没有剧情。我就画了 600 多张图,然后再用这 600 多张图去生成视频,有很多视频其实也生成不出来,这是第二步漏洞。


在图生视频的时候,你又会遇到一部分漏洞,那就是想要的动作做不出来,那时候还没有任何可控性可言,大概 200 多个镜头,然后我在中间挑了几十个,东拼西凑的,没有任何故事可言,剪出了一个预告片,这个东西在当时看还是挺新鲜的。
人均老师,人人都有料

预览时标签不可点
阅读原文
阅读
微信扫一扫关注该公众号
知道了
微信扫一扫使用小程序
取消 允许
取消 允许
取消 允许
×
分析
微信扫一扫可打开此内容,使用完整服务
: , , , , , , , , , , , , 。 视频 小程序 赞 ,轻点两下取消赞 在看 ,轻点两下取消在看 分享 留言 收藏 听过


共有 0 条评论