Z Talk 是真格分享认知的栏目。
今年 7 月,Vozo AI 一经上线即登 Product Hunt 榜首,甚至 Product Hunt CEO 也投了一票。其核心功能 Rewrite & Redub 支持根据 Prompt 重新生成视频脚本,克隆原说话人声音并合成口型生成新配音,受到视频创作领域近千万用户的青睐。
Vozo AI CEO 周昌印本硕均就读于复旦大学,博士毕业于哥伦比亚大学,研究方向为计算摄影,读博期间受到斯坦福大学计算摄影大神 Levoy 教授的邀请,加入 Google X Gcam 项目组任职。
2015 年,周昌印离开 Google 创立 VISBIT。2021 年回国二次创业,深度探索行业需求与技术边界能力后,从 VR 应用转型至视频制作领域,最终在 2024 年 7 月上线 Vozo AI。2016 年,真格天使投资 VISBIT,并于 2020 年再次投资 Vozo AI。
在最近的一次访谈中,持续深耕计算机视觉的周昌印谈及他两次创业寻找产品 PMF 的经验,并阐述了建立 Vozo AI 背后对视频制作行业技术、需求现状的深刻理解。以下是访谈全文:
每一次技术的革新,都会带来内容创作的变革。Vozo 创立于此背景之下,致力于通过 AI 技术,让每个人都能够轻松地表达自己的创意与故事。
Vozo 提供了强大的 AI 视频创作工具,包括智能剪辑、自动特效和丰富的模板库,使得用户无需专业技能也能制作出高质量的视频内容。无论是短视频制作者、KOL 还是企业用户,都可以借助 Vozo 的工具,更加自由地使用视频进行沟通与传播,加速内容创作的效率与质量。
在本期访谈中,我们与 Vozo 的创始人周昌印展开了深入对话,探讨了他从计算摄影到视频创作工具的创业之路,以及他对行业未来的理解和产品理念。访谈中,昌印始终面带微笑,屡次提到「还是很有趣的」,这使我们感受到他对创业的热情和享受。让我们一同走进他的故事,了解 Vozo 背后的理念和未来,Enjoy!
01
Google X 早期科学家、连续创业者,过往聚焦在用计算+摄影的方法为用户呈现更好的视觉效果
Q:欢迎昌印,请先向大家介绍一下自己吧!
周昌印:大家好,我是 Vozo 的 Founder 兼 CEO 周昌印,朋友们都叫我 CY。我本科在复旦大学管理学院,研究生在复旦大学计算机系,硕士期间在微软研究院访学,有幸接触到当时全球最顶尖的计算机视觉研究与计算机科学家,找到自己的研究方向,计算摄影,即「计算+摄影」,帮用户获得更好的图像或视频,或者更好的理解图像或视频。
2007 年微软研究院的老师推荐我去哥伦比亚大学读博,博士导师就是计算摄影领域的主要奠基人,美国三院院士。
2011 年博士第 4 年我在英伟达实习的时候,接到斯坦福大学计算摄影大神 Levoy 教授的邀请,希望我和他一起到 Google X 成立一个新的项目组,后来起名叫 Gcam(谷歌相机的意思)。
但当时我大约还有一年才能博士毕业,而且原计划是毕业后在学术圈从事教职。这中间发生了很多故事,我最终接受邀请加入了 Google X,从一个纯粹 Researcher 变成 Researcher+Engineer。很感激当时博士导师的积极支持与配合,让我不仅可以直接去 Google X 全职工作,也让我 1 年后能完成博士答辩。所以,我没有经过正常面试就进了 Google X,没有博士毕业却拿到了博士待遇,一周工作 4 天,但拿全职薪酬。工位左边是 Levoy 教授,背靠着另一位著名的 AI 大教授 Sebastian,时常会碰到在周围晃荡的 Sergey Brin,发生很多有趣的讨论。当时感觉有点魔幻。这段经历给我很多不走寻常路的启发。
在 Google X 4 年,我逐步转向偏工业界,参与 Google 眼镜的项目,当时 Google 眼镜最大的问题是 Camera 很小、且 Processor 很弱,导致拍出来的视频和图像质量很差,如果基于此做 Vision 的算法,就比较难,所以需要一整套的技术栈,我们当时把整个 Image Stack 重新定义了一遍,是非常典型的 Engineering 和 Research 的结合。我们一次性会拍 6-10 张照片,然后再把 6-10 张照片很快地融合在一起,这样噪音就更低,它的质量会提高一个级别。
但是又要做到用户不知道这件事情,用户以为自己拍了一张,但他其实拍了 6-10 张,中间会有很多 Vision 的算法、Processing 的算法、以及对 Camera 的控制。后面所有安卓手机厂商都要 Follow 我们 Google 的标准,这个后面变成 Android Camera2 API,是整个安卓底层系统之一。
这件事情有趣的点在于,一个工程的事情可以把一件事情的效率提高十倍、甚至百倍,但并没有引入特别大的硬件,我们是通过纯软件的方式来实现的,当时给我非常大的启发。
2015 年离开 Google 开始创业,做 VR 应用,核心希望解决 Teleportation,即在北京可以去体验上海的事情。
这个事情要解决数据的传输、数据的生成、数据的渲染,而且它的数据量比一般的 Video 会大 10 到 100 倍。到后面变成 ToB SaaS,面向运营商如 AT&T、Horizon 等,在技术上有很多突破,但商业上不太成功,受制于上下游的 VR 硬件与内容,市场上并没有那么多的 VR 需求,回头来看有点过于技术 Driven,没有从真正的用户需求出发。
2021 年回国二次创业,做了 Vozo,我觉得这家公司可能会更均衡一些,包括对商业机会的看重、以及真正从需求出发,我们会非常小心地去验证需求是真的、还是我们自己想象出来的。
Q:复盘来看,您认为第一次创业没有达到预期目标的原因有哪些?
周昌印:我们当时是做视频处理,将 Camera 采集的视频数据进行处理、生成和流化,并且在观看端进行解码、渲染和呈现,提供端到端的体验。我觉得核心是生态位的问题,当时我们做的事情需要依赖上下游,上游依赖很好的采集设备去帮我们去采集一些 VR 的原数据,我们处理后要给到下游头显,又要依赖头显的装机量,所以我们是被卡在中间。
以及我们当时有很多 Wishful Thinking,觉得体验做得这么棒,一定会有很多公司把上游的 Camera 做好,以及会有很多人去买头显,当时还会引用一些很有趣的曲线去预测头显的装机量,但回头来看这两件事情(快速增长的 VR 内容与 VR 头显装机量)都没有发生。
所以不能过于理想化。并不是我们把计算与渲染做好,就可以推动上下游变好的。整个行业发展有自己的一套商业逻辑,一家公司能产生的影响一般非常有限。
但是对于创业来说,你又不能等十年上下游就变好了,创业的窗口期也就大概两年到四年,最多到五年也就了不起了,所以给我的 Lesson 是,不要太超前,最好去做差不多已经成形的市场需求,不能领先市场太多。
Q:2021 年开启第二次创业,当时的动力是什么?
周昌印:首先我觉得创业很有意思,以及是我觉得第一次创业可能有一些遗憾,也是希望二次创业可以做得更好,比如没有从用户需求出发,所以这次创业一直带着这个想法在做事,不过创业过程我确实很 Enjoy。
2021 年回国到杭州,当时把杭州 MCN 的一些老大都聊了一遍,就发现他们有各种各样的需求,但大部分都是围绕 Image、Video 这个方向。
和做 VR 时候形成鲜明对比,做 VR 时你把技术和产品都已经做好了,到处求着他们来用,但是而短视频与直播领域有大量需求,但是没有合适的技术与产品满足他们,所以就想我们可以在这里做一些事情,于是开始第二次创业。
02
从用户需求出发,Vozo 上线即爆火,全球 600 万用户,通过 AI 让每个人比较轻松地去做视频表达
Q:当时看到了什么普遍的需求?
周昌印:当时看到几类需求,一类是短视频的制作,另一类是直播。当时直播看上去需求更强,比如有几个有名的 MCN 公司要建很多直播中心,一个楼里有几百个直播间,每个直播间里会有三台索尼摄像机,每个摄像机背后又都要放一个摄影师,后面还有个导播,所有人都戴着耳麦,有一号机位、二号机位,地上一堆线,这个场景听起来就很难 Scale。
我就在想可以做摄像机自动化,只要有一个人去控制它就可以了,大概做了半年的时间,做了一种很有趣的直播机,包括一个广角相机和两个镜头,背后有控制算法,当一个镜头 Zoom In 在你的面部的时候,第二个镜头可以 Zoom In 到你的手部做准备,会自动按照理解切镜头,应该什么时候给手部、什么时候给面部。但后面发现光有需求还不行,还要考虑商业的可行性,头部主播会有很多人服务,本身也享受众星捧月的感觉,长尾主播用手机就可以满足需求,所以只剩下中腰部主播,不够多也不够稳定,后来就 Cancel 掉了这个方向。
不过我们还是收获了很多认知,因为有直播机,我们可以跟 MCN 机构有很多非常紧密的交流,当你把直播机放到他的直播间里面去聊需求,就会了解他平常还会做什么,对整个短视频行业的了解也更深,所以后面我们决定不做硬件,单独把软件拿出来,就形成了后面的产品,一直做到现在。
Q:转型后公司的定位是什么?
周昌印:在直播机之后,我们看到很多短视频制作的需求,我们那时候就意识到和之前不太一样,之前做视频的人都是专业的剪辑师,到了短视频这个时代之后,就会发现很多的 KOL、KOC、电商卖家,他们其实都不是视频制作专业的人,所以他们的视频技能其实跟我们都差不多,就是正常人的视频技能,所以他们在制作短视频的时候就会有很多问题。
我们当时就在想如何让普通人能自然地通过短视频讲故事、表达情绪、介绍商品或其他内容。我认为这件事很有趣,而且能影响到很多人。于是决定不再单纯的追求技术酷炫,而是要做一个所有人都能轻松使用的工具,并做到最好。
我们当时做了大量的用户调研,过程中发现了许多有趣的需求,其中一个就是「记不住台词」这个问题,虽然很起来很小,但对非专业人士来说,除非是专业的主播或播音员,几乎所有人都难以记住台词,这就需要拍摄一遍又一遍,是很崩溃的,因为每一遍都需要情感充沛,好不容易情感对了台词没记住又要重来一遍。
我们当时基于语音识别模型做了一个手机提词器,能根据语速滚动,我们用了一个月就做完了。可最后用户用了之后却不太满意,觉得很多地方不行,比如用户有口音、环境噪音干扰、提词器卡住了等等。
Q:主要是遇到了哪些问题,我们是如何应对的?
周昌印:主要还是技术问题,比如用户普通话不标准、噪声很大、回声很大等,会导致语音识别出现问题,因为用户不是专业的,就发现用户以为的没有噪音和你以为的没有噪音是两回事儿,然后就需要去解决这些问题,收集数据、做模型,以及模型做得够小、延迟够短降低到 100 毫秒以下。
这是其中一个例子,还有很多各种各样的普通人可能遇到的问题,开始做的时候是有点点在试验,但是在优化之后,用户的满意度、付费率、续费率都很好,我们就围绕提词器做了更多的功能,包括加字幕、自动剪辑,也就有越来越多人用,我们目前全球有 600 多万用户,付费率、续费率和用户的反馈都特别好,无论是国内和国外我们的用户评分都超级高,我们经常会把用户的评论贴给我们团队看。
以及除了技术问题,还要思考要做什么,因为刚刚提到这个人群他要的东西很多,做哪个、不做哪个、哪个先做、哪个后做、UI 要怎么做,这其实也是在慢慢演化到后面的产品。
我们在国内有私域群,大概有 5 万人,他们的反馈可以让我们慢慢衍生出更多可能性,比如用户讲错话可以改他说过的话,甚至可以把声音变得更好听,让自己形象变得更好,将故事 A 改成故事 B,将中文变成英文,慢慢延伸,最后发现最好的方式是有个 SaaS,因为使用频率比较高的用户也喜欢用 SaaS,所以去年立项开始做 SaaS,到今年 7 月份 Vozo 正式上线,这款产品承载了我们过去几年对这个人群的需求理解。
Q:Vozo 这款产品的定位是什么,在为用户提供什么样的价值?
周昌印:Vozo 所做的事情是希望通过 AI 能够让每个人比较轻松地去做视频的表达,我们内部把它叫做视频自由,希望每个人都可以很方便地用视频去讲故事。
我们选择做或不做什么时,有三个核心标准。第一:需求要真实,市场有规模;第二:和之前的主流产品要有大不同,比如 Adobe Premiere 或 Capcut;第三:要在我们的主方向上,即给非视频专业者使用的表达工具。标准清楚了之后,我们就明确方向、开发迭代,一直到今年 7 月份才上线。
Q:Vozo 主要面向的用户是谁?
周昌印:刚开始是一些 SMB、Prosumer,现在发现更多是一些企业,我们的产品定位是 Vozo Rewrite,改写有很多不同的场景,比如你有一个广告想改成不同风格、不同的开头结尾;或者你原来有一个市场宣传片,原来是比较正规专业的讲述,你想把它改成更欢快的;或者你发现自己公司的 Logo 在最后一秒钟改了一下;或者我说了中文想把它改成英文。
但是我们上线之后发现两类是最多的,一个是讲解视频,一个是翻译。我们现在体验做得还不错,至少我们自己觉得过了及格线,我们就会聚焦在几个场景,所以画像更多会是企业端的 Marketing、Ads 广告部门,以及一些做内容和做教育培训的公司,这个行业不是一个传统的 Vertical,他是各个行业类似的部门都有类似的需求。
Q:为什么会在今年推出 Vozo,背后的驱动力是什么?
周昌印:我觉得这三年市场的变化还挺大的,Video Translate 或者说 Video Rewrite 这件事情早一年在技术上都没法做得很好。然后我们一定角度上走了一些弯路,我们做提词器拿到了很多数据,就做了很多训练,刚好 2022 年底 Dall E 出来,我们做 Diffusion 和视频生成觉得非常 Exciting,就又走了一个岔路,把原来用户需求的问题抛到脑后了(笑)。但也是那一年的原因,我们对生成模型、语音生成、口型合成,阴差阳错形成了一些能力。
2022 年其实我们做过类似的产品,但是做完之后内部评估不能达到用户期望,过了一年我们又回到主线的时候,现在的生成式 AI 又可以解决原来的问题,虽然两条线岔路出去,然后又回来到原来的问题路径上,还挺有趣的。
技术的突破我觉得是挺全面的,Video Translate 是很综合的一件事情,第一是语音识别在过去两年被革命了一遍,现在的方案比之前要好非常多;第二是翻译,大语言模型就很重要,之前翻译就不太聪明,需要人去校准,这时候刚好大语言模型已经把这件事情解决了,再加上一些我们自己做 Finetune,整体就可以实现比较好的效果;第三是语音克隆和语音发声,这个其实是比较难的,现在行业里面我们、11 Labs 和几个大厂都在做这个事情,在情感真实度方面也差不多是过去一年才有很大的突破;第四是口型,我们 2022 年就发过 Paper,但是离真正变成产品差距还是挺远的,又经过大概半年到一年慢慢变成一个产品化的项目。
所以从语音识别、声音克隆、TTS、生成口型动作、到生成面部动作,一系列问题,在大约半年到一年的时间里就发生了很大的突破,还蛮神奇的。
Q:伴随技术的持续发展,我们还会如何拓展产品功能,产品迭代的主脉络是什么?
周昌印:这是需要技术和产品去对接的,一方面要去预测技术树真正达到产品化的时机,中间你需要评估自己的研发能力和行业推进速度,这需要很强的一线研发能力;另一方面要考虑现有的产品的需求,比如我们中间也会想在翻译语句的时候需不需要把人脸也翻译了,把人脸也变成一个印度人的样子,那么这个需求到底真不真实、有多少比例的用户会为此付费,我们要判断这个事情,再比如视频前三秒我可以生成不同的画面,但是对于画面用户的需求到底是什么,是从一个 Library 里生成一个特效还是怎么样,我们虽然感觉是有什么东西需要做,但是到底是什么还是需要和客户聊。
用户需求加上前面的技术预判,判断它们能够 Overlap 之后才会去做产品的开发,所以后面的路径就是这两件事情在不停地碰撞。
Q:评估用户需求的真实性一直是很难的事情,实操上我们会做哪些事去尽可能地贴近用户的真实需求吗?
周昌印:这是类似 PMF 的探索过程,在硅谷那边有非常多系统化的理论。其实有一本书我很推荐叫《The Right It》,这本书非常棒。
我觉得最重要的一件事情是不要有 Ego,不要觉得自己想的特别重要;其次就是要对这个行业足够了解,比如你要知道做 Marketing 的人是怎么做的、他的 KPI 是什么、他平时的工作是什么,所以你要对 Video Production 这行业非常熟悉;最后很多时候还是依靠主观判断,另外有一些技巧性的事情,像这些书上都有,比如怎么做小规模测试、怎么做访谈,这些都是非常技巧性的东西。
Q:产品上线后,有哪些超预期或不及预期的地方吗?
周昌印:还蛮意外的,7 月 20 日上线以后我们也没有去做推广,但是很多用户都在用我们的产品,到现在我们也不知道很多用户是怎么知道我们的。超预期的是大部分用户对我们的产品还是比较满意的,比如我们翻译得比较快、又比较准,所以好像到目前为止 Vozo 是现在市面上视频翻译大家满意度比较高的一个产品,这是一个有趣的意外收获,我们原来没有想到他们会拿我们 Rewrite 去做翻译,Vozo 可以用 Prompt 去改写视频,我原来预想的 Prompt 是 「Rewrite to something...」,但很多用户直接说是 「Translate to Something」,希望通过我们的产品迭代会有越来越多的用户能用到我们的产品,目前每个月用户用我们的产品(Vozo APP+SaaS)能生产出来 200-300 万条完整优质的视频,我觉得这是非常了不起的事情,虽然我们的留存数据不方便公开,但是我们的留存非常好。
Q:作为 CEO,您觉得未来 1-2 年最重要的三件事是什么?
周昌印:第一是我希望能吸引一些更有趣优秀的小伙伴进来;第二是希望我能确保产品和商业的方向是正确的,不要走错路,不要有 Ego,还是要跟随市场产品应该演化的方向发展;第三是确保我们公司现金流或者营收的增长要足够快。当然这三件事也有因果关系,第一件事情做好了第二件就会做好,第二件做好了第三件就会做好。
03
技术快速驱动下 Video Creation 赛道仍处于早期,各细分市场有机会诞生多家比 Adobe 体验好 100 倍的工具软件
Q:在过去 2 年,您看到了这个行业哪些主要的趋势和变化?
周昌印:我觉得最大的变化当然是技术的演进,让原来一些无法得到提升的体验得到了提升,因此就会产生很多机会。参照 Adobe 来说,你会发现你有很多 Feature 可以做一个非常不一样的、体验感更好的产品,Video Creation 的各种场景基本都可以重做一遍,可以做出完爆 Adobe 的平台。
比如有人是做 Comics 风格的 Video,就是那种动漫类的电影,之前可能是通过 Adobe 先绘画再剪辑,但是围绕最终的需求,漫画家或出版商需要做一个动漫类视频,你可以做出完全不一样的软件系统,让动漫的生产效率非常高。另外比如广告视频、PPT 视频,都可以做出很不一样的东西。可以把所有视频品类都拿出来去想象、假设。
Q:您刚才聊到技术发展非常快,从竞争的角度您怎么看待目前行业的发展阶段?
周昌印:我个人觉得挺早期的,现在真正的市场竞争还谈不上,看现在关于 Video Production 的行研报告,类似是 100B 左右的市场,比如你雇人去做视频、买软件去做视频,而且这个 100B 我觉得是非常小的,整个视频创作的场景非常多,所以这个 100B 是我觉得被严重低估的,将来会比 100B 多 10-100 倍,未来 3-5 年,会有很多像我们这样的人、学生、以及各行各业的人都在用视频去讲故事,市场规模会比原来大很多。
但现在行业基本都还是在用 Adobe PR、Capcut,无论你做翻译还是做广告,这几个软件都是万能的,它们确实可以做任何事情,但每件事情做起来又都特别困难,效果不好。比如,我算一个半专业的视频制作者,但如果我有两个星期没用 PR,我就不知道要怎么用了......
我觉得未来不是这样子,在视频表达里每个场景都是一个比较大的市场,比如翻译、数字人、广告等等。现在是一个变革时代,未来会有很多不同细分场景,接下来 3-5 年可能会涌现出很多不一样的视频工具去服务每一个场景,体验会比原来好 10-100 倍,市场也会大 10-100 倍。我觉得竞争还谈不上,大家先去抢蓝海市场,还没到红海市场。
Q:在 Video Creation 这个赛道,您觉得长期的竞争格局会怎么样?
周昌印:其实这个很难讲,细分之后会有很多种可能的形式,比如数字生成和翻译是分别独立的赛道,还是合起来变成一个赛道?将来是一家公司有一个能把所有视频场景都囊括的产品矩阵,还是一个场景分别有一两家公司?但是我现在的观察是,不同类型产品可能很难变成一个产品,因为不同产品的用户体验差别很大,整个产品服务的底层逻辑也不太一样。
所以我会赌未来会有不同的产品在不同的赛道,只是说这些产品是由同一家公司提供的还是不同公司提供的可能会是一个问题。在现在这个时候,比较重要的是关注未来两到三年谁发展得比较快。
Q:目前 AI 的渗透率怎么样?
周昌印:差不多是零,非常小。我们做提词器或者 AI 加字幕这样的事情算是非常基础的功能了,你可能会觉得这些基础 AI 功能应该已经很普及了,但实际上,在视频制作领域,大多数没有听说过 AI 提词器,也不知道 AI 可以帮助添加各种动态字幕,也不知道可以通过剪字幕来剪视频。
Q:目前渗透率还比较低的原因是什么?
周昌印:我觉得是因为像样的产品没有几个,以我们的翻译为例,基本到去年下半年左右技术才相对能达到及格线,最多大概就六七十分左右。去年 HeyGen 的爆火可能算是一次比较大的推进,但是像这样的事情可能还需要非常多次,我觉得普通人还是非常「顽固」的,千万不要高估 AI 技术的影响力,它需要很长时间去发展。
Q:未来 3 年,您对 AI 技术进步的期待是什么?哪些技术变化可能会对视频编辑领域产生重大影响?
周昌印:我觉得可以分两部分,一边是 Research 研究,一边是 Engineering 工程。基于现有的 Research,Engineering 这边还能做很多优化,尤其是一些非 Framework 的优化,这块其实还有蛮大的提升空间,可能三五年内我们都可以持续改进,希望能领先其他公司一到两年。
未来三年我认为 AI 领域可能会有一些底层技术的突破。不过,这些突破可能不会由我们团队主导,而是像 OpenAI 或者 Google 这样的公司。目前,多模态系统的设计还存在一些明显的不足和问题,因此我希望在两到三年后,这些领域能够取得重大进展。我们现在做的 Engineering 这块,希望在未来两三年不会遇到基础研究的「天花板」,可以继续往前推进。
Q:最后还有几个关于您的小问题,10 年前对自己的期待是什么,目前达成了吗?站在今天,希望 10 年之后的自己成为什么样的人?
周昌印:十年前我在 Google X 做了一个挺有意思的项目,当时想的就是能让人变成某种「超人」。比如,可以看到看不见的东西,或者当别人问你问题,你不知道答案,但谷歌眼镜能告诉你。这相当于通过技术让人拥有「超能力」。不过,显然没有干成,或者说可能在产品上做到了,但是没有变成大家都用的产品。
现在继续创业,我还是希望能做一些技术或者产品的创新。拓展人的能力、突破人的边界。比如,原来你不会用视频讲故事,现在你会了;原来一件事要讲很久,现在一分钟就能讲清楚。我觉得还是在不断探索人的能力边界。
Q:您平时有哪些兴趣爱好?
周昌印:比较喜欢体育运动,羽毛球、轮滑、滑雪等。
Q:作为一个创业者,您通常通过哪些渠道来持续学习?
周昌印:会有两个吧,第一个是要接触一些比你厉害的人,无论是以前公司里的还是创业过程中的人,另外一个是 ChatGPT,你可以和它聊很多问题(笑)。
欲了解更多关于 Vozo 的信息,敬请访问其官方网站:https://www.vozo.ai/