爱诗科技王长虎:全球用户量最大的国产AI视频生成产品,是怎么炼成的?
“Sora是今年春节我收到的最好的礼物。”
2024中国生成式AI大会于4月18-19日在北京举行,在大会第一天的主会场开幕式上,爱诗科技创始人兼CEO王长虎博士以《AI视频生成——用像素构建星辰大海》为题发表演讲。
王长虎深耕计算机视觉与AI领域20年,曾任微软亚洲研究院主管研究员,2017年初加入字节跳动,而后担任字节跳动AI Lab总监,从0到1支撑了抖音、TikTok等国民级视频产品的建设与发展。2023年4月,他创办AI视频大模型创企爱诗科技。
爱诗科技在今年1月上线的海外版产品PixVerse,是当前全球用户量最大的国产AI视频生成产品,国内版(爱诗视频大模型)也在今年3月上线内测。上线88天,PixVerse达成了一千万次视频生成量的里程碑。
今年2月,Sora横空出世,点燃了大众对视频生成的热情,也为深耕该领域的从业者带来了前所未有的机遇和挑战。在技术层面上,Sora验证了DiT架构在视频生成中的Scaling Law(规模定律),并证实了这个方向的可行性。在王长虎看来,追赶Sora的窗口期在一年前,也就是爱诗科技成立的2023年。
过去一年,视频大模型经历着量变到质变。王长虎认为,中国在短视频领域领先全球,同时短视频也是最贴近用户的内容形态。目前视频生成技术还没有到ChatGPT时刻,他称自己有一支在全球AI视频领域最能打硬仗、打胜仗的团队,希望最大程度降低视频创作门槛,实现技术普惠。
以下为王长虎的演讲实录:
过去这一年,视频生成领域进展迅速,从无人问津到众所周知。今天借这个机会,希望能跟大家聊一聊过去一年我的一些体会和浅见。
大家应该非常熟悉这个视频了。今年大年初七凌晨,Sora横空出世,进一步激发了大众对AI视频生成的热情。很多评论、解读铺天盖地而来,很多大V、大佬们也纷纷发言,包括马斯克、周鸿祎以及各种媒体。
大年初七一大早,我被微信吵醒了,很多投资人、朋友、家人、同事纷纷发来问候,好像又碰到那句话:“元芳你怎么看?”
当时最令我开心的是这条,我们公司一位优秀的候选人第一时间给我发信息,说“我要加入你们”,因为视频生成这件事“太大了、太重要了,时不我待”。
这是一张当时在国外互联网上广为流传图片——一众视频生成模型膜拜“新王”Sora。看到这张图后,我的心情很复杂。
我们的产品叫PixVerse,很荣幸“跪”在了第一排,跟Runway、Pika、SVD等当时最好的视频生成产品放到一起,也是这张图里面唯一一家中国公司。
但另一方面,我们前面有一个巨人,还需要进一步超越它。
有人问我,Sora出现之后你会不会焦虑?中美之间的视频大模型差距会不会越来越大?爱诗作为创业公司,接下来路怎么走?
在我看来,Sora的出现是2024年春节期间我收到的最好的礼物。
01.
Sora验证了DiT架构,
追赶Sora的窗口期在一年前
我们是在去年整个视频生成行业还非常冷的时候,加入这个赛道的,并且在Sora出来之前,产品实测效果已经走到全球视频生成第一梯队。
这就像一个人在戈壁徒步,已经走在最前面,需要继续探索的时候,突然看到前面有一些脚印,那时候的感觉一定是非常开心。
一方面,这验证了这个方向大概率是对的;另一方面,前面还有一个人能让你继续超越。因此,强大的对手是沙漠中的水源。
对于Sora的解读非常多,我就不详细展开了。在我看来,Sora最大的贡献就是验证了DiT(Diffusion Transformer)在视频生成中的Scaling Law(规模定律)。
在基础计算量的时候,AI生成的视频惨不忍睹,随着计算量加倍至32倍,生成视频几乎可以以假乱真,这更坚定了我们做视频生成的信心。
毋庸置疑,Sora的出现推动了整个行业的进步和发展。但是很遗憾,至今为止我也没有机会试一下Sora,我们想在座的绝大多数人都没有试过。
当前,Sora只是一场“卖家秀”,也特别期待有一天我们可以看到更多的“买家秀”。Sora出来之后,我们可以看到很多大厂、初创公司都去做视频生成了,要超越Sora。
有人问我,超越、追赶Sora的最佳窗口期是多长时间?
在我看来,追赶Sora的窗口期是在过去这一年,是在视频生成行业很冷的那一年,是在Sora出来之前,整个业界对这个方向还不那么认可的一年。
02.
视频生成去年不被看好,
仍带领抖音AI视频团队All in
回到一年前,我们可以看一下这个行业有多冷。
一年前的今天,OpenAI、Anthropic分别获得了100亿美金、10亿美金的融资,国内的很多大语言模型创企也纷纷拿到第一桶金数亿美金,更大的一笔钱还在融资计划中。
再看视频大模型。一年前,做视频大模型的公司,一只手都可以数得出来。国外Runway已经成立五年,拿到2亿美元融资;Pika刚刚出现,拿到2000万美金;爱诗拿到数百万美元融资。
视频大模型和大语言模型相比,就像蚂蚁和大象一样。
去年上半年,我们聊了一些投资人。一位行业大佬第一时间打钱,成为了我们的天使领投,但更多投资人对这个方向可能看的还不是很清楚,也不是很认可。我们得到一些非常现实的建议,有人说大模型在中国没前途,还不如回家上班,或者建议尽快变现。
当时确实有非常多的选择,是继续创业还是回家?如果创业选择哪个赛道?是先做文生图,还是先做文生视频?
那时候,视频生成没有什么开源模型,需要从头去建设,且生成质量惨不忍睹。而AI图片生成产品Midjourney已经走出来了,每个月有数千万美元MRR(月度经常性收入),有开源模型,所以很多创业公司都去做文生图。
如果选择视频生成,是做大模型还是做应用层?当时很多朋友找到我,说可以一起做游戏、电商、广告,能够很快变现。
但是在我看来,视频是最重要、也是离用户最近的一类内容。过去若干年,我们可以看到抖音、TikTok这样的短视频产品,已经成为全球最重要、用户量最大的国民级产品,无论是下载量还是使用时长。
我们都知道抖音、TikTok是中国团队做出来的,服务于全球。很有幸我和我的核心伙伴们从2017年开始,从0到1支撑了抖音、TikTok这些产品背后的视频AI。所以在AI视频生成领域,我们是全球最能打硬仗、打胜仗的团队,于是决定是All in AI视频生成。
03.
给初创公司取个浪漫的名字,
想用AI做最高级的内容
去年这个时候,在Sora出来之前,引用张一鸣的说法,这是一种“务实的浪漫”。我们没有选择最容易的事情,而是选择当时可能非主流、非共识,但我们认为是正确的事情。做视频大模型是有生命力的,是面向未来的。
我们公司也取了一个有点浪漫的名字——爱诗,“爱”是AI的意思,“诗”是可以流芳千古的、最高级的内容,“爱诗”的意思是用AI做最高级的内容。
去年4月份我们公司成立,7月份开始训练大模型,经过大约几个月的时间,技术上已经成为全球第一梯队。今年1月份我们的产品PixVerse在海外上线,发展很快速。Sora出来之前,我们在年前已经拿到了数亿元的第二轮融资。
这是去年8月,我们第一次训练好的一个完整模型生成的视频,时间很短,动作也很小,但是对我们来说是一大步。
有人问我,大语言模型跟视频大模型区别在什么地方?
在我看来,语言和视觉是两类完全不同的内容,语言是在人类出现之后才出现的,是人类文明的结晶,它已经对信息做了高度抽象和概括;而视觉在人类出现之前,山在那里、水在那里,它是更原始的东西。
当大模型出现之后,人们对大模型的期待是模拟人脑,是新的硅基生命,是人内部的东西。而视频生成大模型出现之后,人们的期待是什么?是对世界进行模拟、建模。
视频生成本质上是理解这个世界,然后做影像呈现,这种呈现经历了从记录到生成的演进过程,这里我们列举了三个影像记录历史中很重要的时刻。
在三万多年前,人类已经在岩壁上去呈现自己看过的一些群狮奔跑的画面;1826年,法国的摄影先驱制作了第一张可以长期展现的照片;1872年,人类历史上第一个视频出现了,它源于两个美国人关于马飞奔过程中蹄子是否同时腾空的探讨。从视觉的呈现到视频的生成看起来很远,事实上离我们很近。
小时候过年,我的父亲总会给我做各种各样的灯,其中有一种灯叫“走马灯”。我们要点燃蜡烛,蜡烛推动热气上升,带动轴轮的转动,轴轮上面会绑上一些剪纸,烛光通过剪纸映射到最外边一层的屏上,走马灯就呈现了这样动态的效果。右边的连环画是我很快乐的童年记忆,也是一种原始的“视频生成”。
当抖音、快手这样的短视频产品逐渐成为主流,越来越频繁影响我们的生活的时候,我们可以看到视频生成技术也逐渐出现了。
最早期阶段是检索生成,即视频里的每一个片段都是从海量数据中检索而来,不是纯粹生成的,通过自动或者人工方式拼接在一起,现在在短视频平台里面也可以看到这样的视频。
第二阶段是部分生成,我们在玩抖音、TikTok的时候会看到里面有很多特效,其中有一个特效“控雨”,用户录制视频的时候用手掌可以控制雨让它停掉,并且有一些微动。这类视频总是有一个原始的视频,在这个基础上做一些局部生成,包括特效里面的美颜、动漫风、换个狗头、加个猫耳朵都是这样。
最后是我们现在提到的真正意义上的视频生成,是凭空生成的。
视频生成技术可以追溯到十年前,GAN(生成对抗网络)的出现开始。之后的若干年,局部生成领域大放异彩,虽然有很多通用生成、文生视频的技术出现,但是效果也很差。
直到Diffusion扩散模型的成功,2023年出现了非常多的文生视频的技术、产品,有谷歌的VideoPoet、英伟达的Video LDM、Runway的GEN-2,还有Pika以及我们的PixVerse。
但是2024年Sora出现,表明过去这一年无论是数据量、计算量还是参数量都有非常大的提升。
这里我选了几个模型,2023年7月份发布的AnimateDiff、2023年12月发布的VideoPoet以及2024年2月发布的Sora,其中关于Sora参数都是道听途说,有可能不准,也有可能比较保守。我们看到一年之内,这些参数都有巨大的提升,这也带来了视频生成产品的提升。
04.
上线88天生成1000万次,
PixVerse已解决多镜头一致性问题
我们在去年11月份初发布了PixVerse测试版,今年1月份正式发布了Web UI的版本,提供了文生视频、图生视频以及我们首创的Character to Video,用户只要上传一张照片就可以成为视频的主角,可以解决多镜头的一致性问题。
最后一张视频大家能看出是谁吗?这是我们开发出这个模型之后生成的第一个视频,我自拍一下输进去,让它生成一个我在跑步的视频,“他”的身材比我好多了。生成后我第一时间发到我们健身群里面,告诉大家我的“健身效果显著”。
现在已经有很多的创作者用PixVerse替代摄像机、演员、布景来创作大片。中间一张图是一个俄罗斯用户在今年1月份创作的一个AI科幻片Last Mission,每个镜头都是PixVerse做的,这也是在海内外有广泛影响的影片。
很多国内用户也在用我们的产品。前段时间我们受邀到一个省级电视台去交流,惊讶地发现有很多编导已经在用PixVerse做AI视频。他们也很惊讶这个产品团队居然就在在国内。
下面这个视频是国内一个导演“闲人一坤”,利用PixVerse创作出来的中式奇幻片《山海奇镜之劈波斩浪》,也是国内播放量最大、影响力最大的AI视频之一。《山海奇镜之劈波斩浪》已经被快手平台采购,据悉将在5月上线。
PixVerse发布之后,我们跟创作者交流过程中,也遇到很多感人的瞬间。
这是国内一个54岁的老大哥给我们发的一封邮件,他想申请加入我们的创作者计划,说他前些天戴着老花镜花了一整天时间,用PixVerse和剪映做成第一条AI片子。他说,使用PixVerse的过程中让他享受了创作的愉悦,并且跟我们分享了一些他的故事。这是意料之外的感动。我们看到自己的产品不仅有导演、专业创作者用起来,普通用户也能受益。
还有一位乌克兰导演,因为宏观经济原因失业了。他用了PixVerse觉得非常棒,想为我们社区发展助力。他当时创作了第一个关于香水的广告大片,在海外很火,很多商家看到了,付费让他帮忙创作广告,之后他又创作了一系列啤酒、钻石等广告,获得了收入。这里面每个镜头都是通过PixVerse做出来的。
前几天我发了一个朋友圈,纪念我们一千万次视频生成。我想每一个视频背后都可能有一个故事,但这也只是我们的一小步,希望未来能够服务于更多的用户。
现在视频生成技术还没有到ChatGPT时刻,还在快速发展过程中。但是我们已经欣喜地看到专业创作者们,在应用我们产品来替代镜头、演员、场景来生成大片,逐渐地去改变原有的视频生产创作工作流,我们也期待未来有更多的行业,游戏、动漫、教育、影视等受益于视频生成技术的发展。
当然,我们也希望能够在最大程度上降低使用的门槛,不仅创作者们能够用起来,每天玩抖音、玩TikTok的普通消费者们也能够用我们的产品,轻松地使用AI视频生成产品将创意转变为现实。我们希望能够做到技术普惠。
我们的产品名字叫PixVerse,Pix(Pixel)代表像素,Verse(Universe)代表宇宙。AI视频生成,就是“用像素构建星辰大海”。
以上是王长虎演讲内容的完整整理。