喝点VC|红杉对话全球最火的AI生成媒体平台Fal CEO:当内容生成变得无限时,有限的东西反而会更有价值

图片[1]-喝点VC|红杉对话全球最火的AI生成媒体平台Fal CEO:当内容生成变得无限时,有限的东西反而会更有价值-AI Express News

图片来源:YouTube

Highlights

  • 这正是动画制作的过程,当它第一次出现时,人们对它产生了反感。现在的 AI 发展情况与之非常相似,但技术的发展是无法阻挡的,它必然会发生。你要么成为其中的一部分,要么被时代淘汰。

  • 生成一段 5 秒的 24 帧视频,算力消耗是生成 200 个 token 文本的 12000 倍;若是 4K 分辨率,算力消耗会再增加 10 倍。

  • 顶级视频模型的半衰期仅为 30 天,市场格局处于持续动态变化中。

  • 我们不需要只优化某一个单一模型,而是构建能适配 600 多个模型的推理引擎,这让我们在性能基准测试中稳居榜首。

  • 动画、动漫或卡通类内容会最先实现 AI 生成规模化,越远离照片级真实感,越容易落地应用。

Gorkem Yurtseven、Sonya Huang、Pat Grady、Burkay Gur 为生成式视频开发者平台 Fal核心成员,深耕模型推理引擎优化与行业生态建设,见证生成式视频技术从萌芽到商业化的关键进程。生成式视频技术崛起,行业面临技术瓶颈与应用落地难题,本次访谈聚焦 Fal 平台的技术实践与行业洞察。访谈时间: 2025年12月10日。

生成式视频平台的定位与核心议题

Gorkem Yurtseven:我们最近举行了第一代媒体会议,梦工厂前首席执行官杰弗里·卡岑伯格也出席了会议。他做了一个比较。他说这正是动画制作的过程,当它第一次出现时,人们对它产生了反感。在那之前都是手绘的。而计算机图形是新的技术,当时有很多人对计算机驱动的动画表示反对。现在的AI发展情况与之非常相似。但技术的发展是无法阻挡的,它必然会发生。你要么成为其中的一部分,要么被时代淘汰。

Sonya Huang:在这一集中,我们与来自Fal的团队坐下来深入交流。Fal是一个开发者平台和基础设施,为大规模生成式视频提供支持。开发者可以通过Fal同时访问超过600个生成式媒体模型,包括OpenAI Sora、Google Vo以及Cling等开放权重模型。

我们将讨论为什么视频模型与大语言模型(LLMs)面临着根本不同的优化挑战,为什么视频开源生态系统拥有文本模型从未有过的蓬勃长尾市场,以及为什么顶级视频模型的半衰期仅为30天。该团队还分享了来自视频模型需求方的行业洞察。

我们还会探讨应用层的动态,涵盖从原生AI工作室到个性化教育领域,以及好莱坞行业的相关发展等内容。希望大家喜欢本期节目。

非常感谢各位今天的到来。我想从你们决定解决的问题领域开始切入。Fal是一个面向生成式视频和图像模型的开发者API及平台。显然,视频占据了互联网超过80%的带宽,因此生成式视频未来也将拥有同样庞大的市场规模。但目前专注于这个领域的公司并不多,你认为这是什么原因?

生成式视频市场被忽视的原因与发展契机

Gorkem Yurtseven:在我看来,在AI的当前发展阶段,生成式图像和视频领域之所以被忽视,主要有两个原因。第一,没有非常清晰的行业应用场景供人们追求。不像自动化软件工程的网络编码、大语言模型主攻的搜索领域或客户支持等方向那样目标明确。第二,三年前,该领域的研发投入并没有那么大,之后的增长速度也比大语言模型稍慢,但从那以后,投入规模仍在大幅增加。

现在的模型相比两年前已经强大得多,实用性也显著提升,拥有了真实的行业应用场景。而在两年前,这个领域的应用更像是“玩具级”的,只是用来消遣娱乐,人们认为最终只会是一个小众市场。但现在我们可以看到,与大语言模型市场相比,生成式视频市场将成为一个拥有独特应用场景和客户群体的庞大市场。

Burkay Gur:如果你真的回顾我们经历过的那段时期,会发现那是一段很有趣的时光。当时我们正在开发一些Python相关的计算基础设施,而DALL·E 2等模型刚刚问世,不久之后ChatGPT和Llama也相继发布。最初,我们完全没有预料到图像和视频市场会发展到今天的规模。

我们最初的切入点其实很简单,就是好奇如何能让图像模型的运行速度变得更快。之后,我们看到了初步的增长态势——我们有了一些客户,而且他们的增长速度非常快,这让我们感到很意外。在积累了更多客户后,我们意识到应该在这个领域加大投入。

大约在同一时期,另一个现象是人们过度关注语言模型。通用人工智能(AGI)的概念被广泛讨论,吸引了所有的资金和人才。所以所有人都在专注于语言模型领域,而我们认为自己找到了一个小众但增长迅速的赛道,当时还想着“悄悄发展,不要声张”。从那以后,我们就全身心投入到这个领域。

不久之后,随着我们对各类模型的了解越来越深入,我记得我们将公司官网的定位更新为“生成式媒体平台”。而就在更新后的两三个月,Sora模型就被正式发布了。所以我们确实走在了前面,而且我们真切地预见到,随着更好的图像模型、视频模型等产品的出现,整个行业的未来即将到来。因此,我们做出了这个早期的战略布局。

Sonya Huang:你们可以说是行业发展的亲历者,见证了人们基于这些技术打造的各类全新体验。我认为,生成式视频市场的规模未来只会比我们现在熟知的媒体市场更加庞大。

Burkay Gur:是的,绝对是这样。我想到了一位行业人士的观点——好的播客节目总是离不开这样的深度见解。

他最近谈到了自己为什么对媒体模型感到兴奋,其中一点是,人类是视觉导向的生物,相比枯燥的文字堆砌,我们拥有的视频内容要丰富得多。他还提到了教育领域,我们为了学习而消费的很多内容都是文本形式的。

我认为目前的模型质量还有很大的提升空间,远未达到理想状态。我自己经常用ChatGPT学习,但都是通过文本交互。如果模型能够生成一段视频,将一个复杂的概念在15秒内生动呈现出来,而不是用上万字的文本去描述,学习效率肯定会大大提高。

模型质量是决定其市场渗透率的关键,只有当质量达到一定高度,才能被更广泛的人群接受。而现在,整个行业还处于非常早期的阶段。

Gorkem Yurtseven:教育市场目前几乎还没有受到视频生成技术的影响,这个领域的潜力巨大,只是还在等待模型的质量和稳定性达到能够满足需求的水平。我完全相信,生成式视频在教育领域会有非常广阔的应用前景。

Sonya Huang:你们之前给我展示过那个生成式视频圣经应用,我认为它为人们学习圣经内容提供了一种全新且更好的方式。正如你所说,我们才刚刚站在这个行业的起点。

Fal作为一家基础设施公司,今天我们的访谈将按照技术栈的层级展开。我个人很喜欢分析基础设施公司的技术架构,所以接下来我们将从你们构建的核心推理引擎、编译器和内核开始,逐步深入到模型层、工作流,最后分享对市场的观察,让大家了解如何基于这些技术进行开发实践。

Gorkem Yurtseven:好的,听起来非常令人期待。

Sonya Huang:那我们就开始吧。先说说这个推理引擎,我很好奇,你们团队的成员都很年轻,对吧?我听说有人只有20岁左右。这样的团队背景,是不是也是你们公司技术实力如此硬核的原因之一?

推理引擎的核心技术与优化逻辑

Pat Grady:我从14岁就开始参与创业项目了,所以虽然年纪不大,但已经积累了不少行业经验。我最初是从开源项目入手的,第一个贡献是围绕Python语言的工具开发,后来逐渐开始参与Python核心编译器、核心解析器和核心解释器的开发,最终成为了Python的核心维护者之一。我认为当时我是这个项目最年轻的核心维护者。这段经历让我对编译器及其灵活性有了独特的理解和认知。

当我们刚开始着手为图像模型提供服务时,就意识到当时虽然只有三种不同架构的图像模型,但未来模型的数量肯定会爆发式增长,还会出现超分模型、视频模型等各类产品。我们早就预测到了这一点,因此从一开始就没有选择只优化某一个单一模型——我们不想“把鸡蛋放在一个篮子里”,因为当新模型出现时,这种策略很容易被淘汰。

于是,我们开始构建这个推理引擎,它本质上是一个跟踪编译器,能够追踪模型的执行过程,并从中找出可以适配我们模板化内核的通用模式。我们的核心竞争力在于,有一支专注于性能优化的团队,他们全身心投入编写能够将性能提升9%到50%的内核代码,而且这些代码都是基于模板实现的通用化设计。

通过追踪模型的执行流程,我们可以识别出通用模式,然后在运行时将半生成式内核替换为专用内核,从而实现模型性能的优化。我们发现,这种技术方案的效果远超市场上的其他同类产品,这也让我们在所有性能基准测试中都稳居榜首。另一个重要的优势是,我们专注于进行内核级别的数学精确抽象设计。这一点至关重要,因为在媒体行业,输出结果的质量是极高的门槛,而我们的技术能够确保模型在优化性能的同时,保持输出质量不打折扣。

Sonya Huang:优化扩散模型和优化其他类型的模型(比如大语言模型)有什么本质区别?

Pat Grady:大语言模型的瓶颈在于,如何将海量的模型参数从内存快速传输到显存。这类模型的参数规模动辄数千亿,在预测下一个token时,需要对之前的多个token进行注意力计算。而在扩散模型中,处理视频数据时,需要同时对成千上万个token进行去噪处理,并且这个过程中还需要频繁进行注意力计算。这就会导致GPU的计算资源被完全占满。

因此,扩散模型的瓶颈不在于内存带宽,而在于计算资源的饱和。我们需要寻找更好的GPU执行策略,比如编写更高效的内核代码,或者将softmax运算与其他计算任务进行重叠处理。本质上,就是要充分利用GPU的全部算力,以满足模型的运行需求。

Sonya Huang:所以这是不同的约束条件——一个受限于计算资源,一个受限于内存资源。那么从直觉上来看,为什么大语言模型相对受内存带宽限制,而视频模型虽然参数数量没有那么多,却相对受计算资源约束?

Pat Grady:我认为这是一个规模效应的问题。如果我们用同样的密集架构将视频模型的参数扩展到6亿,然后处理一个包含10万个像素点的视频,在去噪过程中需要进行50次注意力计算,每次都要对这10万个token进行处理——这样的计算量是极其庞大且昂贵的。

所以视频模型的核心约束在于推理速度,而大语言模型在参数规模较大时也会面临类似的问题,但大语言模型的实际应用场景中,批处理规模通常不会太大,因此主要受限于内存带宽。这也是为什么人们会采用推测解码等优化技术来提升大语言模型的性能。

Sonya Huang:要在性能排行榜上名列前茅,你们具体做了哪些努力?我相信市场上还有很多同样优秀的团队,这个领域的竞争就像一场技术奥运会。我很好奇,在大家技术思路和优化方向都比较相似的情况下,你们是如何脱颖而出的?

Pat Grady:我认为关键在于我们对这个领域的专注程度远超同行。我们团队是真正痴迷于生成式媒体和相关模型的,并且专门组建了团队专注于这一方向。目前来看,从NVIDIA到其他推理引擎提供商,几乎所有公司都将重心放在了语言模型上,都在想方设法提升大语言模型在基准测试中的token生成速度。而我们选择了一条不同的赛道,虽然也有竞争对手,但他们都无法与我们相提并论。

我们汇聚了一支顶尖的技术团队,找到了优化这些通用模型的最佳方案,并且始终保持高度专注。毕竟,硬件的性能上限是固定的,这一点对所有公司都是公平的。我们的优势在于,总能领先竞争对手3到6个月。举个例子,当我们用一年前的推理引擎与最新版本的PyTorch进行基准测试时,会发现我们的性能已经落后了——因为PyTorch一直在不断更新迭代。这种技术领先的窗口期是有限的,而保持领先的关键,就是全身心的投入和专注。如果你能专注于此,将所有精力都投入其中,就很难被竞争对手超越。

Gorkem Yurtseven:另外,视频模型的版本迭代非常快,几乎每个月、每个版本都会有细微的变化。虽然整体架构没有大的调整,但这些细微差异为我们提供了优化空间,而其他公司往往不会投入这么多精力去关注这些细节。同时,硬件技术也在不断进步,我们总能比竞争对手更早地适配新一代硬件产品(比如H200 GPU),这也让我们全年都能保持视频模型运行速度的领先优势。这一切都源于我们对视频模型的专注和痴迷。

Sonya Huang:明白了。那你们认为目前正在解决的最难的技术问题是什么?

Gorkem Yurtseven:有一个关键点是很多人没有意识到的:我们需要同时运行600个不同的模型,而且不仅要能运行,还要保证运行效率——我们运行单个模型的性能,甚至要超过那些只专注于优化某一个模型的公司。原因很简单,那些基础模型实验室通常只关注自己开发的一个或几个模型版本,而我们需要同时优化600多个模型。这就意味着,除了针对GPU的推理优化之外,我们还需要在基础设施层面进行大量的工作。

比如,我们需要高效地管理GPU集群,在合适的时机加载对应的模型;需要将用户请求精准路由到缓存了对应模型的服务器;需要根据不同的模型类型,选择最合适的硬件设备。而且客户的流量是实时变化的,我们的系统必须能够动态适应这些变化。所以,除了推理引擎之外,整个基础设施的管理和优化也是一个巨大的挑战。不过到目前为止,我们在这方面已经取得了非常出色的成绩。你有什么要补充的吗?

Pat Grady:我很认同你的说法,我把我们做的这种计算称为“分布式超级计算”。我不知道为什么人们不喜欢这个名字,但我觉得很贴切。核心思路是,我们的算力分布在不同的数据中心——一个月前是28个,现在可能已经达到35个了。这些数据中心的计算资源具有异构性,硬件规格、网络环境都各不相同。但我们需要将这些异构资源当作一个同构集群来进行工作负载调度,这是一个非常复杂的问题。

过去三年,我们从底层做起,开发了自己的编排器、CDN服务,甚至深入到Web技术的底层,优化流量路由策略,部署定制化的服务器机架。我们构建了一整套技术体系,目的就是为了能够在任何地方获取算力资源,并高效地调度工作负载。这与传统企业级大语言模型的使用模式有很大不同——我们的应用场景更加分散,面向的用户群体也更多元,因此需要投入大量资源来确保能够充分利用稀缺的GPU算力。

Sonya Huang:你提到了超大规模云服务商,一说到分布式计算和大型集群管理,人们自然会觉得这些云服务商应该具有先天优势。那你认为,为什么你们在核心引擎的研发和部署上能够超越他们?

Pat Grady:主要有两个原因。第一,在推理引擎这个领域,这些超大规模云服务商其实并没有太多的技术积累——这是一个全新的领域,真正的优化工作也就是在过去两年才开始的。所以我们相当于和他们站在了同一起跑线上,这是一个全新的竞争赛道。第二,是基础设施层面的差异。目前,超大规模云服务商的运营模式还是比较传统的:他们拥有自己的数据中心,然后部署GPU资源,但并不太关注成本和效率的优化。不过这种情况最近已经开始改变了,比如微软也开始从一些新兴的云计算公司采购算力。这背后反映出一个趋势:GPU的需求增长速度已经远超这些超大规模云服务商的预期,他们的基础设施扩张速度已经跟不上市场需求了。所以在当前阶段,即使是超大规模云服务商,也不再具备绝对的规模优势——因为他们同样需要从外部采购GPU算力,双方的竞争格局已经发生了逆转。

Burkay Gur:另外,公司的发展阶段也起到了一定作用。我们作为一家创业公司,决策流程更灵活,能够更快地抓住市场机遇。而那些上市公司则需要考虑股东的期望,在战略决策上会受到更多约束。还有一个关键点是,超大规模云服务商和新兴云计算公司之间存在巨大的价格差异。通过超大规模云服务商使用GPU算力的成本,有时会比新兴公司高出2到3倍。

造成这种差异的原因有两个:一是市场压力,GPU资源供不应求,超大规模云服务商有底气维持高价;二是超大规模云服务商的运营成本更高——他们需要提供更完善的服务、更高的正常运行时间和更优的服务等级协议(SLA),这些都会体现在价格中。此外,云服务行业有一个既定的利润率标准,市场也期望他们维持这个水平。而新兴的云计算公司大多是私有企业,没有那么大的盈利压力。在GPU资源供不应求的市场环境下,超大规模云服务商可以维持高价并充分利用算力资源,获得可观的经济效益;而新兴公司则通过低价策略抢占市场份额,形成了差异化的竞争格局。

图像与视频模型的运行差异及算力需求

Sonya Huang:这是一种非常典型的价格竞争策略。你们公司是在Stable Diffusion发布的那个时期成立的,当时市场主要以图像模型为主。那么运行视频模型和运行图像模型相比,有哪些不同之处?

Gorkem Yurtseven:我们不妨把文本模型、图像模型和视频模型放在一起比较。以一个顶尖的大语言模型为例(比如DeepSeek),生成200个token大约需要1单位的浮点运算能力(TFLOPS),我们就把这个算力消耗作为基准单位1。生成一张图像的算力消耗大约是这个基准的100倍。如果要生成一段5秒的视频(24帧/秒),总共需要120帧画面,对应的算力消耗就是单张图像的120倍,也就是基准单位的12000倍。如果是生成4K分辨率的视频,算力消耗还会再增加10倍,达到基准单位的120000倍。由此可见,与生成200个token的文本相比,视频生成对算力的需求是极其庞大的。

Pat Grady:是的,总的来说,图像模型的基础设施搭建相对简单。早些时候,生成一张图像需要15秒,后来优化到了3秒。在这个过程中,我们不需要太关注毫秒级的延迟优化,系统的整体负载也相对较低。而视频生成的初期阶段,虽然生成一段视频需要20到30秒,但技术实现上反而比图像模型更简单。真正的挑战出现在最近几个月——实时媒体技术的兴起要求我们能够像播放视频一样,以24帧/秒的速度流式生成视频内容。这才是我们目前投入大量精力去解决的问题。

其实我们一年前就开始在语音转语音模型上进行类似的实时优化了,当时我们通过优化全球分布式GPU集群的调度策略,成功降低了系统延迟。比如,当用户发送请求时,我们需要快速调度最优的GPU资源,最大限度地减少系统自身的开销。现在,我们正将这些优化经验应用到实时视频生成领域。目前,我们已经看到了非常旺盛的市场需求——用户希望能够实现“即输即得”的体验,输入文本提示后就能实时生成视频内容。这种实时生成的需求,给基础设施带来了全新的技术挑战,这与传统的图像和视频生成有很大不同。传统的图像和视频生成虽然算力消耗大,但对延迟的要求不高;而实时视频生成则需要在保证低延迟的同时,提供稳定的算力支持。

Burkay Gur:还有一个有趣的点是,图像模型的参数规模相对较小,通常可以在单张GPU上运行,这一点比大语言模型更有优势。而视频模型的参数规模正在不断增长,目前开源视频模型的参数已经达到了300亿左右。虽然有传言称GPT-4的参数规模已经达到了万亿级别,但视频模型的参数增长趋势也非常明显(比如关于NVIDIA和Sora的参数规模就有很多相关传言)。随着参数规模的扩大,视频模型也将越来越依赖分布式计算技术。但目前来看,视频模型的分布式部署需求还相对较低,通常只需要8个节点甚至更少,这也让我们在技术实现上具有一定的优势。

视频模型的长尾生态与应用特性

Sonya Huang:好的,让我们再深入一层,聊聊模型本身。我认为有一件事人们并没有完全意识到——在媒体领域,实际投入使用的模型存在非常长的长尾效应。你能给大家介绍一下,在你们的平台上,人们正在积极使用的模型有多少?分布情况如何?为什么你认为与大语言模型领域相比,视频模型的长尾效应会如此明显?

Gorkem Yurtseven:这实际上是三年前人们的一个认知误区。我的意思是,现在还不能完全下定论,但在ChatGPT发布后,人们开始讨论“全能模型”(Omni models)——认为未来会出现能够生成视频、音频、图像、代码、文本等所有类型内容的巨型模型。我认为这种情况可能仍然会发生,但更明确的是,针对特定类型的输出进行优化,效果会更好。这一点对于代码生成来说是如此,对于图像或视频输出来说更是如此。

三年前我们在推广项目时,得到的一个反馈就是:“未来会有全能模型,运行这些模型的方式也会趋同,在特定模态上很难形成竞争优势。”但事实证明并非如此——在特定模态上建立技术优势是完全可行的。这也是为什么视频模型会呈现出多样性的原因之一:最好的超分模型只专注于超分任务,最好的图像编辑模型也有其专属定位,即使是最好的文本生成图像模型,也与图像编辑模型有所不同。所有这些特定任务都需要专属的模型来完成。它们可能属于同一个模型家族或采用类似的架构,但最终都需要独立部署自己的权重。这就造就了生态系统的多样性。

Pat Grady:我认为这一点也适用于语言模型——即使在同一个模态中,不同家族的模型也有不同的风格、特征和“个性”。比如,Claude生成的代码和GPT-5生成的代码就有很大差异,我们已经看到了这种情况的发生。但在视频领域,情况更为复杂:除了不同类型的任务(如超分、编辑、视频生成、文本转视频等),每个任务下还有3到4种不同“个性”的模型。这使得目前任何时候都有近50个活跃模型。此外,还有非常长的长尾模型——人们仍然会选择这些模型,因为他们可能更喜欢其独特的“个性”。

Sonya Huang:说到模型的“个性”,你们平台上最受欢迎的模型有哪些?你认为它们的“个性”体现在哪里?

Gorkem Yurtseven:从一开始就存在一个现象:流行的模型一直在变化。不同实验室的新版本不断推出,取代之前的热门模型,这是一个动态变化的过程。但话虽如此,我们的客户通常偏好两种类型的模型。第一种是大型昂贵的模型,这类模型在视频生成质量上表现最佳,可能是Sora、Cling等。第二种是“主力模型”,这类模型更便宜、参数规模更小,但性能已经足够满足需求,人们通常会在大规模应用场景中使用它们。这种情况在过去近两年里一直存在:昂贵的高质量模型在不断迭代更新,便宜的“主力模型”也在持续变化,但这种“双轨并行”的格局始终没有改变。

Sonya Huang:所以“主力模型”主要用于原型开发,然后在最终产品中使用大型昂贵模型?还是说人们会在其他场景中使用“主力模型”?

Gorkem Yurtseven:“主力模型”主要用于高吞吐量的应用场景。根据你正在构建的应用程序不同,可能会有不同的使用方式——比如对同一输出进行变体生成,但具体用法非常依赖于应用场景。

Burkay Gur:我认为还有一个实时变化的维度,那就是模型的使用场景。比如,当OpenAI发布GPT图像编辑功能时,该模型在文本编辑、文本生成和编辑能力方面表现突出,因此对于需要大量文本交互的场景,人们开始选择这个模型而非其他模型。这也说明,模型的受欢迎程度往往与其特定能力相关——模型的训练数据和擅长的领域决定了它的应用场景。比如,Cling模型深受视觉效果工作流用户的喜爱,因为它的训练数据中包含了相关内容;而Sea Dance则在细节纹理和艺术多样性方面表现出色。所以,模型的优势其实是与具体的使用场景紧密相关的。

Pat Grady:我们在第二季度和第三季度观察到一个有趣的指标:排名前五的模型半衰期仅为30天。这意味着这些模型的排名一直在不断变化,市场格局非常动态。

Sonya Huang:这真是一个严格的“折旧周期”。

Gorkem Yurtseven:对于那些已经投入资源开发的模型来说,确实是这样。但新模型的不断涌现也在丰富整个生态。

Sonya Huang:我只是在开玩笑。目前模型领域可能还处于一个相对动荡的阶段,尚未达到稳定状态。你们认为最被低估的模型是什么?个人最喜欢哪一个?

Gorkem Yurtseven:我个人通常喜欢Cling的视频模型。但这种偏好一直在变化,因为Cling模型不支持音频功能。在音频方面Veo 3和Sora是仅有的选择。很多团队都在专注于音频相关的模型开发,希望未来能有更多样化的选择。

Pat Grady:在图像模型方面,我喜欢Revs模型,而且Flex模型对我来说仍然很有怀旧感——虽然它已经发布一年了,但我仍然会经常使用。现在Flex模型也有了很多变体。

Burkay Gur:我个人喜欢MidJourney,虽然它没有在我们的平台上提供API接口。我欣赏它在市场中的定位策略:它率先实现了照片级真实感,这在当时是一项重大突破——在此之前,没有任何模型能够做到这一点。而现在,照片级真实感的技术已经被广泛攻克,人们不再过分关注这一点,MidJourney又转向了小众的艺术视觉风格,这非常酷。

生成式媒体的市场动态与合作模式

Sonya Huang:我想稍微谈谈市场动态。所以我认为您的业务有点像一个市场,您将开发人员聚集在市场的一侧。这就是需求方。你在市场的另一端聚合了模型供应商,那就是供应方。模型供应商都是专有的APIs,将您视为分发合作伙伴的模型实验室,以及您自己托管和运行的开放模型。因此,也许可以谈谈封闭模型提供商,您与OpenAI Sora有合作关系,与Veo上的DeepMind有合作关系。对他们有什么好处?我为什么选择与你合作?

Gorkem Yurtseven:我们是首批积累了大量开发者用户且获得他们认可的平台之一。这些开发者来自各行各业的优秀公司,他们选择与我们合作,主要是因为我们的平台操作简单,能够帮助他们快速上手。此外,正如我们之前提到的,模型的半衰期非常短,人们通常需要同时使用多个不同的模型。我们拥有庞大的开发者群体,他们喜欢我们的平台,不依赖于任何单一模型,并且对平台有很高的忠诚度。模型研究实验室看到了这一点,因此将我们的平台作为分销渠道,以触达我们构建的开发者生态系统。这也帮助我们吸引了更多的模型提供商——他们看到了平台上的开发者资源,也希望加入进来,这反过来又吸引了更多开发者,形成了一个良性循环。

Sonya Huang:这确实是一个典型的平台型业务模式。对于开发者来说,你们的平台是访问多个模型供应商的“单一入口”,而且正如你所说,模型领域的变化非常快,我认为开发者确实非常重视这一点。

Gorkem Yurtseven:我们称之为“Marketplace++”,因为我们不仅为开发者提供服务,还为研究实验室提供基础设施支持。这带来了额外的协同效应,形成了我们独特的竞争优势——平台+其他增值服务。

Sonya Huang:你们如何定位自己,以便在某些情况下获得模型的“零日发布权限”(Day 0 Launch Access),有时甚至是独家发布权限(比如CLA、Minimax等模型)?

Gorkem Yurtseven:我们确实做到了这一点。在过去的两年里,我们构建了一个非常强大的营销体系。平台上的开发者是我们的核心连接点——每次我们发布新功能或新模型,都能为开发者带来新的价值,这也为我们引入新能力、新模型创造了机会。

模型开发者也看到,我们通常会与他们共同开展营销活动。作为核心营销合作的一部分,我们会获得一定时期的独家发布权限(有时甚至是永久独家)。我们的竞争对手规模相对较小,而模型开发者更愿意与最大的平台合作——而我们的平台正逐渐成为行业领导者,因此能够与模型提供商达成这些独家合作。

Sonya Huang:太棒了。你认为为什么开源模型生态系统在视频领域如此活跃?感觉文本模型的开源生态总是落后一代,而视频领域的开源社区却有很多创新。你认为这背后的原因是什么?

Gorkem Yurtseven:我也这么认为。这一切始于Stable Diffusion的开源——它的广泛采用证明了开源的力量。之后,几乎同一支团队创立了Black Forest Labs,他们深知开源能够帮助构建强大的生态系统。

对于图像和媒体模型来说,生态系统至关重要。当开发者训练LoRA模型、构建基于现有模型的适配器时,不仅能带来免费的营销效应,还能增强用户粘性。直到现在,仍然有很多人在使用Stable Diffusion模型,因为他们喜欢其开放的生态系统。

Black Forest Labs从Stable Diffusion的成功中吸取了经验,采取了非常明智的策略:部分模型开源,部分模型闭源。后来的很多视频模型提供商也遵循了这一策略——因为开源能够构建强大的生态系统,在营销和开发者吸引力方面带来巨大优势。我认为这种趋势还会继续下去。

Burkay Gur:我想补充一点,视觉领域的生态系统其实更重要。比如,当Llama 2首次发布时,虽然有很多微调版本,但如果你实际下载使用,会发现很难区分它们的差异——因为语言模型的通用性太强,即使进行微调,也很难体现出明显的独特性。

但在视觉领域,情况完全不同:你对模型做的任何微小调整,都可能带来巨大的输出差异。比如控制网络(Control Net)这样的概念,在语言模型中并不存在。这使得视觉模型的定制化空间非常大,开源生态也因此更加活跃。

Sonya Huang:说到视觉风格,David有一个观点我很认同——MidJourney正在引领美学领域的发展,带来了风格的“组合爆炸”。我认为这也是你们平台上一些模型基于其他模型进行微调的原因之一。

Burkay Gur:确实如此。即使你在模型中融入了多种美学风格,如果训练数据过于庞杂,可能无法精准生成你想要的特定美学效果——很多时候,你仍然需要通过微调模型来获得精确的输出。而对于大语言模型来说,操作方式完全不同:你并不需要特定的输出结果,而是解决不同的问题。因此,视觉模型的定制化更为主观,需要在模型基础上进行大量的训练后优化。Sora就是一个很好的例子:Sora 2在社交风格内容上进行了深度微调。即使有几十种不同的风格,你仍然需要通过后期训练来推动模型向特定方向优化。

Gorkem Yurtseven:这完全取决于客户的使用场景。客服聊天机器人不需要“个性”,越通用越好。但对于创意团队、营销团队来说,他们希望在输出中融入自己的品牌风格或个性,因此需要对输出有更大的控制权。而在大语言模型中,情况并非总是如此。比如智能代理、代码生成等场景,并不存在“风格”或“个性”的等价物。

生成式视频的开发者工作流与实践案例

Sonya Huang:这是一个很好的过渡,让我们再深入一层,聊聊工作流。目前,Fal平台上的平均开发者工作流是什么样的?

Gorkem Yurtseven:开发者通常会同时使用多个不同的模型。最近的数据显示,我们的前100名客户平均同时使用14个不同的模型,这些模型有时会相互替换。比如,一个工作流可能包含:一个文本生成图像模型、一个超分模型、一个图像生成视频模型——它们可能属于同一个工作流的不同部分,也可能是不同用例中使用的不同模型组合。我认为这是平台最有趣的一点:人们使用的模型种类非常多样化。

我们还提供了一个无代码工作流构建器,这是与Shopify合作开发的。它非常适合产品经理、营销团队以及团队中的非技术成员使用——他们可以通过可视化界面尝试不同的模型、比较不同的输出结果,最终将这些工作流通过API集成到产品中。这个工具最近非常受欢迎,越来越多的软件工程团队开始关注图像和视频模型,平台的用户数量也在持续增长。

Sonya Huang:所以平均工作流不仅仅是“文本提示生成内容”,而是更复杂的场景——比如创建一个5分钟的商业广告。如果我想创建一个5分钟的商业广告,工作流会是什么样的?

Gorkem Yurtseven:正因为如此,人们更倾向于使用开源模型——因为他们可以对模型有更多的控制权,能够根据自己的需求进行调整,推动模型生成想要的输出。当我们与工作室或专业营销团队合作时,他们都非常喜欢使用开源模型,因为可以替换和控制模型的各个部分,进行深度定制。这些工作流通常类似于复杂的节点式UI工作流——每个模型的不同部分都可以替换,为创作者提供更大的控制权。

Burkay Gur:没错。我们的工作流工具还不是最终形态——在工作流层面,可能还需要另一层抽象。通过与工作室的交流,我们发现,就像Photoshop有无数种使用方式一样,生成式视频的工作流也没有统一的标准。实际上,工作流很大程度上取决于用户的角色:营销人员、动画师等不同角色,会有完全不同的工作流。随着越来越多的专业人士开始使用这些工具,我们看到了非常特定的工作流的涌现。

我们最喜欢的创作者之一是pjas,他会在网上分享自己的工作流——每个月,他的工作流都会因为新模型的出现而发生变化。我认为,一旦这些工具的生产力得到验证,专业人士开始广泛采用,就会形成标准化的最佳实践。但目前来看,还没有人知道最终的工作流形态是什么样的。我们每天都会看到新的用法,也在不断更新产品以满足这些需求。

Sonya Huang:我看到一种比较常见的工作流:先输入高层次的创意想法和想要的美学风格,通过图像模型迭代美学效果,然后使用该图像模型生成一系列图像,形成故事板。

Gorkem Yurtseven:然后视频模型会在这些图像之间进行插值,生成连贯的视频。

Sonya Huang:没错。这很有趣,因为这正是皮克斯(Pixar)等公司的传统工作方式——先制作故事板,再进行动画制作。

Burkay Gur:是的,一开始这是出于成本考虑——制作故事板可以降低后续制作的风险。但现在来看,这种方式仍然非常合理。在电影制作中,这被称为“前期制作”(Pre-production),之后是“后期制作”(Post-production)或“制作阶段”(Production)。前期制作包括故事板等所有准备工作,直到今天,这仍然是行业标准流程。

虽然过去制作故事板的成本很高,但现在AI让这个工作流变得更快、更高效。比如,当一个新的文本生成图像模型发布时,你只需要按一个按钮,就能用新模型生成所有不同的图像组合,然后重新生成视频。我们见过一些非常复杂的工作流:更新一个细节可能需要花费1000美元,但创作者仍然愿意投入——有些个人用户在创作者平台上的花费高达50万美元,甚至超过一些小型制作工作室。这非常令人难以置信。

生成式媒体的应用场景与未来展望

Sonya Huang:好的,说到在你们平台上构建产品的工作室,让我们进入最后一个层面:客户、市场以及未来展望。目前人们在你们平台上构建的最酷的产品是什么?这些产品是传统媒体业务的创新,还是全新的商业模式?

Burkay Gur:应用场景非常广泛,这也是这个领域令人兴奋的地方——它几乎涵盖了所有你能想象到的市场。我先举一些长尾场景的例子,因为它们非常有趣:有一家安全公司在我们的平台上构建了动态培训系统——培训内容是实时生成的,虽然有固定脚本(可能是为了符合课程要求),但每个人获得的内容都是动态定制的。这是自适应安全领域的一个应用,我认为这是最独特的用例之一,也展示了生成式视频在教育领域的潜力。

另一个更常见的用例是“原生AI工作室”(AI Native Studios)。你提到的生成式视频圣经应用(Faith)就是我最喜欢的例子之一——它在App Store上排名很高,为圣经中的每个故事制作了高质量的视频内容。这类原生AI工作室既有应用程序形式,也有制作故事片、系列剧的团队,这是一个巨大的市场类别,我称之为“新媒体”或“原生AI媒体娱乐”。还有很多设计和生产力工具类应用,比如Canvas、Adobe等我们的公开客户——他们正在将新模型集成到现有的工具中,提升产品的功能和用户体验。

广告是另一个重要的应用场景,而且形式多样:UGC风格的广告(比如个人演示产品的视频)是一个很大的类别,AI生成的UGC广告需求旺盛;还有传统风格的广告(更专业、更高制作水准),比如你可能看到的可口可乐广告。我们最兴奋的是程序化广告——能够实现极致的个性化,比如让用户自己出现在广告或电影中。这是一个快速增长的用例。

Sonya Huang:我最兴奋的是教育用例。广告是商业的支柱,确实有很强的商业案例,但教育是一个非常重要的市场,却一直缺乏令人信服的商业案例。教育领域的核心挑战是:如何大规模创建高质量、适合学习者的内容。生成式视频可能会解决这个问题,所以我个人对教育领域的应用最感兴趣。

Burkay Gur:我完全同意。ChatGPT等大语言模型在某种程度上解决了教育问题,但形式不够理想。如果你想充分发挥这些模型的潜力,就必须进入视觉领域——视频内容更简洁、更易理解。我认为,一旦我们通过视频模型实现了视觉化学习,就会真正改变人们的学习方式。

Sonya Huang:你认为生成式媒体的出现会增加现有IP的价值(比如马里奥兄弟、任天堂、迪士尼皮卡丘等),还是会导致IP的民主化(即普通人也能创建有影响力的IP)?

Gorkem Yurtseven:六个月前,我们感觉好莱坞的IP持有者们适应得太慢,生成式媒体的发展速度超出了他们的预期。我们当时认为,原生AI工作室会接管市场,而传统IP持有者会被淘汰。但今年夏天,情况发生了变化——我们与很多好莱坞的关键参与者进行了交流,发现他们开始认真对待生成式媒体。

我们最近举行了第一次生成式媒体会议,梦工厂前首席执行官杰弗里·卡岑伯格也出席了会议。他做了一个很好的类比:动画刚出现时,人们反对它(因为之前都是手绘);计算机图形技术出现时,人们也反对计算机驱动的动画。现在AI面临的情况与此非常相似,但技术的发展是无法阻挡的——你要么参与其中,要么被淘汰。

目前,很多现有IP持有者都在认真对待生成式媒体。至少在中期来看,他们的定位非常有利:他们有对这项技术感兴趣的技术人才,有强大的IP储备,还有讲故事和电影制作的专业能力。虽然电影制作的成本仍然很高(AI可能会降低一些成本,但中期内仍然昂贵),但这些懂电影制作、拥有IP、擅长讲故事的高技术人才,将在AI生态系统中发挥重要作用。

Sonya Huang:当内容生成变得无限时,有限的东西反而会更有价值。对于我们这些看着《恐龙战队》(Power Rangers)、电子宠物(Meal Pets)长大的人来说,怀旧元素和有限的IP供应会引起强烈的共鸣。

Pat Grady:反过来也是如此。

Gorkem Yurtseven:确实有很多新的IP涌现——比如我们见过一些意大利稀有角色的小玩具,这些角色没有IP,没有人拥有它们,完全是互联网社区通过AI生成的。当内容生成的成本降低,各种变体层出不穷,一些受人们喜爱的内容会流行起来,成为时代精神的一部分。所以,两种情况都会发生:现有IP的价值会提升,新的AI生成IP也会崛起。

Sonya Huang:说得对。相关的一个问题是:我们如何防止世界陷入“无限劣质内容”的状态?比如,人们只是连接到一个无法个性化的机器,就像被绑定在“无限老虎机”上一样。另一种可能是,人类的创造力和艺术性仍然会发挥重要作用。你认为未来会朝着哪个方向发展?

Burkay Gur:我认为人类最终会聚焦于更有意义的事物。无论世界上有多少劣质内容,品味和审美会最终胜出,人们会被个性化、有人情味的体验所吸引。我相信这一点会发生。一个有趣的例子是:Meta发布Vibes时,OpenAI发布了Sora 2,两者的市场反响截然不同。我认为其中一个原因是,Vibes被定位成一个“老虎机式”的产品——当时还没有实际产品,只是一些与用户无关的AI生成内容;而Sora 2则聚焦于朋友、宠物等个性化场景(比如Cameo功能),非常贴近用户的生活。这种与朋友、宠物的连接感是关键。Sora 2的定位非常个人化,强调“与朋友共享”,而不是像“老虎机”一样的随机生成。我认为这是一个很好的信号——这项技术可以以积极的方式发展,创造有意义的价值。

生成式视频的未来 timeline 与技术突破

Sonya Huang:非常认同。接下来,我想了解你们对时间线的看法:今天哪些事情是可行的,未来哪些事情会实现?你认为我们会看到完全由AI生成的好莱坞级别的长片电影吗?如果会,大概什么时候?

Pat Grady:你说的“AI生成”是指完全没有人类参与,还是没有人类拍摄?

Sonya Huang:没有人类拍摄,但可以有人类编辑。

Gorkem Yurtseven:是的,人类编辑是必须的。

Pat Grady:我认为在不到一年的时间里,结合现有的故事板技术和先进的视频模型,我们会看到高质量的短片(比如不到20分钟)。这是一个合理的预测。即使在今天,只要投入足够的时间和资源,也能制作出非常棒的电影——只是目前人们在这方面的投入还不够。随着模型的不断进步,这一目标很快就会实现。

Sonya Huang:好的。你认为哪种类型的内容会最先实现?是照片级真实感的,还是动漫风格的?

Pat Grady:照片级真实感是所有人的目标,但动漫风格也会是一个很酷的方向。目前专门针对动漫的模型并不多,我认为这背后需要有足够的市场需求驱动。

Gorkem Yurtseven:我认为动画、动漫或卡通会最先实现——越远离照片级真实感,越容易实现,甚至奇幻风格会更具优势。因为拍摄真实场景的成本已经很低了(比如谷歌已经有很多真实场景的素材),而电影制作中真正昂贵的是非真实感的内容(比如奇幻、科幻场景)。看看经典的动画电影,比如《玩具总动员》系列、《驯龙高手》、《料理鼠王》——人们喜欢这些电影不是因为它们的真实感,而是因为故事本身。动画为电影制作带来了全新的视角,我认为AI也会像动画一样,成为电影制作的新媒介,创造出独特的价值。

Burkay Gur:我认为长片电影会更难实现。因为照片级真实感的内容通常需要观众熟悉的演员——人们喜欢电影,往往是因为喜欢其中的演员。而AI生成的角色需要先与观众建立情感连接,才能支撑起一部长片。但在短片和原生AI内容方面,我认为会发展得非常快。比如意大利的“Brain Rot”(一种网络流行文化)就是一个很好的例子——最初只是一些AI生成的角色,后来发展成了Roblox游戏,甚至产生了可观的收入。所以,原生AI内容和短视频可能会最先爆发。

Pat Grady:我们在视觉特效(VFX)领域已经看到了这一点——制作视频或电影中最昂贵的部分之一就是视觉特效,而AI能够快速生成爆炸、建筑物倒塌等特效,现在已经几乎达到了完美的水平。我认为这一趋势还会继续下去。

Gorkem Yurtseven:面部表情可能会是一个难点——目前还很难通过AI生成逼真的面部表情。但没关系,不一定需要完美的面部表情,内容本身的价值才是关键。

Sonya Huang:但现在AI已经能生成体操等复杂动作了。

Gorkem Yurtseven:是的,体操等动作已经可以实现了,这要归功于我们有大量的奥运会素材可以用于训练。

Sonya Huang:你提到了Roblox,那你认为我们什么时候会有实时生成的交互式视频游戏?

Burkay Gur:我认为这会实现,而且我对此非常兴奋。如果说文本到视频是文本到图像的延续,那么文本到游戏就是文本到视频的延续——游戏本质上是交互式的视频。我认为会出现一种“超超休闲游戏”(Hyper-Hyper Casual Games)——这类游戏非常简短,甚至可以“用完即弃”。我认为我们离这个目标已经不远了,而且我对这类长时间可玩的短游戏非常乐观。这也是世界模型(World Models)的一个很好的用例。

至于AAA级质量的游戏,我认为还需要3到4年的时间。但在此过程中,就像视频领域一样,会有很多中间形态的产品出现,它们也会有很大的市场。目前,大语言模型已经在影响游戏中的对话系统(比如动态对话),前期制作(如角色设计、场景搭建)也已经受到AI的影响。甚至有一些不公开的案例中,人们已经在使用AI生成游戏资产、制作迷你游戏了。我认为AAA级游戏的AI生成还需要时间,但中间阶段的创新会非常多。

Sonya Huang:视频模型领域在选项、质量等方面已经爆发式增长。展望未来,要实现生成式媒体的“应许之地”(即大规模、高质量、低成本的应用),你认为还需要哪些研发突破?是基础性的研发突破,还是我们已经进入了工程规模化的阶段?

Pat Grady:我认为模型架构至少需要进行小幅调整。如果要将视频模型的性能提升10倍、100倍,目前的架构在推理效率方面是一个很大的瓶颈。视频空间的压缩技术也需要进一步提升——就像图像模型从像素空间转向 latent 空间(将64个像素压缩为1个 latent 向量)一样,视频模型目前在时间维度上的压缩比只有4倍,未来需要进一步提高(比如8倍、16倍)。这将是提升推理效率和训练效率的关键驱动力。

但与此同时,我认为我们在工程规模化方面还有很长的路要走。过去6个月,谷歌的模型快速追赶就证明了这一点——他们不需要太多创新,只需要投入足够的资源就能实现突破。而小型实验室也能通过数据层面的创新(比如独特的训练数据)来推出有竞争力的模型。此外,中型实验室(融资规模在1亿到10亿美元之间)也在通过开源或生态合作的方式推出模型,整个行业的竞争非常激烈。

Gorkem Yurtseven:这正是这个领域令人兴奋的地方——还有很多工作要做。到目前为止,研究界做的都是最基础的工作:为图像添加字幕,用文本提示训练模型。而现在,视频图像编辑等任务需要更复杂的数据工程来创建数据集。幸运的是,我们有大量丰富的免费视频数据——在视频数据耗尽之前,我们的计算资源就会先耗尽。这意味着还有很多改进的空间和工作要做。

Burkay Gur:早期的化学计算也表明,要实现4K视频的实时生成,计算能力或架构需要提升100倍以上。目前,很多模型对专业人士来说还不够实用,甚至对消费者来说也是如此——即使是最好的模型,生成一段视频也可能需要40秒,有时甚至2、3分钟,这与我们“即时获取”的生活方式不符。

所以,必须要有一些改变才能实现这一目标。仅仅依靠硬件提速是不够的,那样需要的时间会更长。因此,模型架构的创新是关键。

Sonya Huang:太棒了。谢谢你们。在生成式媒体成为热门主题之前,你们就对这个领域充满信心,这非常有远见。我认为我们才刚刚开始,生成式媒体的爆发即将到来。从内核优化、编译器,到工作流、客户案例(无论是新媒体还是传统媒体),你们所构建的一切都非常令人印象深刻。再次感谢你们今天参加我们的节目。

Gorkem Yurtseven:谢谢,非常感谢。今天的交流非常愉快。

原视频:Building the Infrastructure Layer for Generative Media w/ fal,https://youtu.be/s_IIjGamN3Y

编译:Ellis Du

请注意,本文编译自文末载明的原始链接,不代表Z Potentials立场。如果您对本文有任何想法或见解,欢迎在评论区留言互动探讨。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的优质内容。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

 

-----------END-----------

 

<原文链接:https://mp.weixin.qq.com/s/6U0W4xQRCqytJbqynv07Kw

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容