Sora拍片真实体验:大力难出奇迹,全靠人工逐帧后期

Im_Banana-avatar

Im_Banana

2024-04-28T14:15:00+00:00

今年年初,OpenAI发布其首个文生视频模型Sora,可用文字指令生成长达1分钟的高清视频,随即引起广泛关注和多方震动。马斯克就感叹“人类认赌服输”,许多人更是直呼“导演、后期要失业了”,毕竟,这一被称为“造片神器”的模型问世,意味着或许每个使用它的普通人都可能实现“导演梦”。很多人已经在畅想由ChatGPT生成创意文案和脚本,再由Sora从文本生成酷炫的几分钟广告大片。

Sora最初并未对外开放试用,直到近几周,来自加拿大的Shy Kids团队作为少数获得部分Sora权限的制作团队,尝试单纯用SORA取代摄像机,制作了一部时长1分21秒的短片,也为大家揭开了Sora神秘的面纱。

这部《Air Head》短片由3人制作,耗时接近2周。谈及制作过程,他们除了感慨SORA的强大功能,也谈到了制作背后的很多内幕:真实的Sora成片每一秒都需要至少300倍的素材,而且OpenAI的科学家们似乎完全没有意识到,视频存在镜头语言这个需求,AI从文本一键生成我们理想中的大片依然只是美好的想象,

Shy Kids的深度体验也证明了一个关键的事实,在Sora发布时,OpenAI似乎在暗示这些样片都是完全由SORA自称生成制作,但大家看到的样片“买家秀”背后实际上包含了大量人工的专业制作,无论是分镜,编辑,调色,还是镜头,特效,这些目前均无法靠AI来取代。

专业团队的分镜,AI依然看不懂

Shy Kids作为一支加拿大专业影视团队,以其不拘一格和创新的媒体制作方法而闻名。被称为“朋克摇滚皮克斯”,在艺术性层面,他们的作品获得了艾美奖提名并入围奥斯卡提名,而在商业化层面,他们为迪士尼,奈飞,HBO等平台制作过多部作品,在业界有一定的知名度。

即便是这样的专业团队,在使用Sora制作视频时,上来就发现了一个大问题——传统的先写剧本分镜然后开启拍摄制作的流程在Sora上行不通。

本片导演在介绍影片制作时提到,他们使用的Sora依然是传统的输入本文生成视频模式,并不支持现在很多大模型已经应用的多模态输入。

这直接导致了一个尴尬的剧情,由于没法给Sora看分镜图,Sora完全无法生成一段连贯的视频来满足摄影团队的需求,团队只能将每一个分镜都单独生成视频来进行拼接。

但是这里就出现了第二个问题,AI对于事物的理解并不如人类,即便前一个镜头的素材完美符合了导演的需求,按照同样的需求文字输入后,下一段片段依然无法复现相同的元素。

导演对此举了一个例子:假设你要求Sora在厨房里拍摄一张桌上有香蕉的长镜头。在这种情况下,它将依据对“香蕉”这个概念的理解来生成视频。通过训练数据,它“学习”了香蕉的各类要素:例如“黄色”、“弯曲”、“有深色末端”等。但它没有实际记录的香蕉图像,也没有类似“香蕉图片库”数据库,只凭借关键词生成它认为的香蕉,这也导致了每次生成得香蕉都无法保证固定一样,这对于长视频拍摄造成了巨大的影响。

为了保持最简单的一致,团队不得不将各种Sora生成片段进行裁剪拼接。



团队展示影片制作过程

以这张气球人骑车的片段为例,由于每次生成主角骑车画面都无法保持统一,看似流畅的画面实际上由三段画面拼接而成。

AI拍片,更耗人力了

由于AI无法稳定生成一个固定的角色或者道具,这也导致了《Air Head》制作时遇到了许多在传统影视中不会遇到的问题。

这部短片的主角是一个黄色气球作为头部的人,由于AI无法稳定地生成这样一个角色,在这部1分21秒的作品中,几乎每一秒都需要大量的后期调整才保证角色的统一。

为了解决这个问题,Shy kids决定大力出奇迹,通过大量生成相关片段筛选相对统一有用的部分,来组合成一部影片,这也让团队原来设想的拍摄电影变成了一部类似纪录片的拼接缝合。

团队负责后期的帕德里克表示:“短片有剧本,但团队需要灵活应变”,“只是获得了一大堆镜头,并试图以一种有趣的方式将其剪辑给旁白。”

其透露道,为了制作这部片子,每一秒钟的成片都需要大概300倍的素材。

而渲染这些原始素材成为了影片最耗时的部分之一,团队表示每次得到的素材长度在3-20秒,但是渲染的时间需要10-20分钟不等。

而即便是渲染出来最终采用的素材,依然逃不过大量的人工后期加工。

Shy Kids提供的信息显示,即便每次都要求生成一个黄色的气球,Sora有时候还是会生成一个红色气球,由于没有更加合适的素材,后期团队只能利用PS和AE将其涂成黄色。




成片(上)和SORA生成视频原片(下)

而有时候则会在气球上出现人脸,这导致需要大量的后期处理,包括分级、稳定化、上采样以及移除不需要的元素。



SORA生成的气球人出现了人脸

OpenAI:什么是镜头语言?

除了需要大量的后期外,对于制作AI电影中最大的障碍,负责本片后期的帕德里克提到了AI目前很难理解镜头语言这个缺点。

帕特里克表示:对于许多文生视频工具来说,一个有价值的信息来源是相机元数据。例如,如果需要用照片训练(大模型),相机元数据将提供镜头尺寸、光圈值和许多其他关键信息供模型训练。

但是对于电影镜头,“跟踪”“平移”“倾斜”或“推入”的想法都不是相机数据中冰冷的数据,而是一个更加抽象性的概念。尽管在影视行业中对象永恒性(道具/人物需要在拍摄时持续存在)制作至关重要,但镜头语言也同样重要,然而目前的Sora不仅难以实现,甚至难以理解这个概念。

Shy Kids表示:“对于如何描述电影场景中的一个镜头,九个不同的人会有九种不同的想法。 (OpenAI) 研究人员在让艺术家使用该工具之前,并没有真正像电影制作人那样思考。”尽管Shy Kids团队知道他们体验的Sora版本比较早期,但依然对于杂乱无章的摄像机机位和角度表示震惊,在团队眼中,他们已经试图在文本中强调固定机位或者镜头语言这个概念,但是他们不太确定到底是Sora无法理解他们的输入方式,还是SORA根本就没有相关的概念。



目前SORA几乎只会怼脸直拍一种角度

在将这个问题反馈给OpenAI后,双方都大吃一惊,相比Shy Kids团队,OpenAI的研究人员震惊于文生视频居然有这样的需求,这番回复让Shy Kids团队集体瞳孔地震,在他们眼中司空见惯的认知居然在SORA的开发中完全没有被提及。

在Sora紧急更新了相关代码后,Shy Kids对保持同一机位这个功能的评价也是“堪堪够用”,帕德里克表示SORA目前可以做到生成10次视频,六次能得到差不多的机位角度。

不过他补充到,值得注意的是这并不是一个独特的问题,几乎所有主要的文生视频公司都面临着同样的问题。Runway AI在提供描述摄像机运动的UI方面可能是最先进的,但Runway的质量和渲染剪辑的长度不如Sora。

对于整体的拍摄体验,Shy Kids团队表示这是一次新奇且有意义的探索,他们认为比起靠Sora直接生成一部影片,将Sora融入AE制作特效镜头是一个非常好的应用尝试。

同时,他们也表示,目前的Sora依然非常的早期,并不适合对外公开发布,对于专业团队来说,可能离满足导演要求还有很长的路要走,但是对于普通人,也许在未来的一段时间内,如果不在乎各种奇怪的BUG画面和需要大量的后期修补,Sora或许能做到足够普通人使用的程度。
NekoFrosty-avatar

NekoFrosty

这玩意就应该搞色色视频
ZiggyWatts-avatar

ZiggyWatts

有的没的,这玩意不是应该搞瑟瑟吗
Peter Griffen-avatar

Peter Griffen

我就知道是泡沫
Centribo-avatar

Centribo

你要这么说,纳斯达克可就不爱听了
ReapR-avatar

ReapR

这不就是早期蒸汽机车
大方向有了后面发展迭代就好了
大胆预测最多还需要十年吧
𝚋𝚕𝚘𝚘𝚝𝚑 𝚋𝚊𝚝𝚑𝚎-avatar

𝚋𝚕𝚘𝚘𝚝𝚑 𝚋𝚊𝚝𝚑𝚎

这种迭代很快的.你加算力就是了
ItsCristian-avatar

ItsCristian

亲工业革命,但还只能革一点点……
KingMilky-avatar

KingMilky

+ by [四个号能活多久] (undefined)

这不就是早期蒸汽机车
大方向有了后面发展迭代就好了
大胆预测最多还需要十年吧

蒸汽机可以拉货物。

这个可以干啥?要不放在这里,这种sora就是垃圾。

只不过因为chatGPT始终找不到真正的盈利模式,就推出这个东西来骗一下外行。
Turqqy-avatar

Turqqy

只能说跟我写代码的体验如出一辙:更多的时间会被用在修bug上。ai生成再后续修bug的时间,不一定比自己写有效率。
sombresoy-avatar

sombresoy

果然是这样哭笑生成式ai就算上限在那里,背后也免不了海量的时间和专业人员大精力修复中枪
rence-avatar

rence

工业革命都是能量转化效率的提升。除非AI能自己琢磨出可控核聚变,不然就只是个蹭能源的寄生虫哭笑
Zumm-avatar

Zumm

+ by [修科技馆] (undefined)

蒸汽机可以拉货物。
这个可以干啥?要不放在这里,这种sora就是垃圾。
只不过因为chatGPT始终找不到真正的盈利模式,就推出这个东西来骗一......
汗骗谈不上吧?AI现在其实还在应用摸索中,当然它距离你理解的AI还是距离挺大的,一方面受限于网络神经架构另一方面则是算力不足,就……静观其变吧,我个人觉得不算骗,是一个有很大潜力的东西,但是能不能兑现有一些前置要求,希望大公司和科学家能解决吧。
D̾a̾r̾k̾0̾_̾-avatar

D̾a̾r̾k̾0̾_̾

没啥好质疑的叭。
我用过gpt,我觉得他是真的能理解,能做出自我判断,能成为想象中的ai。
未来已至,
一切不过是时间和算力问题。
一场新的革命正在进行中,
谷歌 微软 苹果 腾讯 华为...所有的大公司都必然且正投身其中,
深度学习 卷积神经算法 正在重塑一切,
理解文字 自动驾驶 自动谱曲 文生图....
看不见吗
泥潭的坛友这有什么好担心好怀疑的呢。
Im_Banana-avatar

Im_Banana

+ by [四个号能活多久] (undefined)

这不就是早期蒸汽机车
大方向有了后面发展迭代就好了
大胆预测最多还需要十年吧

根本就不是一回事,内燃机算是能源,SORA仅仅是一个工具

而且一天24小时学习并不会让AI更聪明,就像一个3岁的孩子天天学习也超不过学霸一样,现在的AI并没有那么聪明,它只是看起来很聪明。在没有新技术和天量低价能源革命的前提下,世界将很快看到它的极限。


通俗点说,听过科技停滞吧?科技停滞如果没听过,总听过修炼瓶颈吧?
天天用低阶灵石修炼,能成金丹?

抠鼻
Karim B-avatar

Karim B

+ by [四个号能活多久] (undefined)

这不就是早期蒸汽机车
大方向有了后面发展迭代就好了
大胆预测最多还需要十年吧

电影好看的原因是剧情吸引人啊,现在gpt发展这么久了能写出小说吸引读者吗,发展到最后也是省点拍摄费用,但是光靠特效能好看吗,还是要靠人的创意
ElSpongeboy-avatar

ElSpongeboy

+ by [四个号能活多久] (undefined)

这不就是早期蒸汽机车
大方向有了后面发展迭代就好了
大胆预测最多还需要十年吧

蒸汽机车是一个新的起点,是一个基础平台。
目前的AI是建立在数个基础平台上的一个树杈,开的花很好看,但源头无法自行产生,而源头,是这个世界本身。

除非AI正式开始以像素点为单位,甩开人类当下的一切,进行纯粹而独立的生产,与思考,这时候AI可以算新型生命。
或者AI已经彻底认识了我们这个世界的所有存在、道理和底层规则,起码和人类的认识一样深刻,这种情况下,AI跟人已经没有区别了,更像个完人。

这种情况下的AI生产,可以称之为造物了。
在AI通过寥寥文字呈现给人类的片刻画面背后,如果基于当下这个世界,AI的呈现会极其优秀。
如果不是基于这个世界的话,短短一个场景的背后,也许是AI在某个层级创造的万千世界,万千个有规则,有逻辑,有历史有事件的世界,甚至有生命。
而人类只是得到了一个小片段。

就像不再背谱后的AI围棋,每一步AI一选的背后,AI早就下完了很多很多盘棋。
The Tofu Man-avatar

The Tofu Man

+ by [lvdouyao] (undefined)

没啥好质疑的叭。
我用过gpt,我觉得他是真的能理解,能做出自我判断,能成为想象中的ai。
未来已至,
一切不过是时间和算力问题。
一场新的革命正在进行中,
谷歌 微软 苹果 腾讯 华为...所有的大公司都必然且正投身其中,
深度学习 卷积神经算法 正在重塑一切,
理解文字 自动驾驶 自动谱曲 文生图....
看不见吗
泥潭的坛友这有什么好担心好怀疑的呢。

还是有差距的
我让它生成情书,看似每一篇都不同,其实都是车轱辘话哭笑
Im_Banana-avatar

Im_Banana

现在这些AI,其实基本上就真的是“人工”智能

偏偏有些人跟着那些财经媒体走,别人吹得天花乱坠他就信了……

即使目前这些文本生成、图片生成、视频生成真的发展到了宣传那种水平,本质也就是一个好用的工具,这个工具可以提高码字、画图、做视频的效率,而码字、画图、做视频归根结底也只是宣传或者文化娱乐工具,离提高工业生产力还差几条街那么远



相反,目前那些在采矿、工业生产、码头运输、气象预测等行业发展的AI,还取得了一些实实在在的效果,但是全世界的媒体大多都去看西方的“月亮”圆又圆了
dyyn-avatar

dyyn

从0到1已经走通了,后续只是1-100的过程。别忘了stable diffusion一开始连个玩具都算不上,后来有了control net才是完全体。