打开网易新闻 查看更多图片

文| 刘澍

很多科技创始人,可以借助AI升级个人名片,打造更亲切的海外形象,让全球领略到新一代中国企业家的风采。

使用外语出口成章,AI可以帮你。

一周前,小鹏汽车创始人何小鹏在视频号上发布了一支由AI打造的宣传片。视频里,他将全球首款AI汽车“小鹏P7+”开到了火星,呈现了一个未来的科技世界

打开网易新闻 查看更多图片

这不仅给自家汽车赚足了噱头,也给AI视频工具打出了广告,让业内外看到了AI创作愈发品质化

不止于此,视频引言段,何小鹏一口流利的英文演讲更是令人赞叹。

Many people ask me,Can you describe clearly to us what the future AI car will look like and why do people say that the XPENG P7+ could be the pioneer of future AI cars?

宣传片中,何小鹏甫一登场,即用了一个超长的英文复合句子表达了视频的主题——小鹏P7+是未来AI汽车的开启者。

打开网易新闻 查看更多图片

这句话抑扬顿挫、发音标准、节奏清晰,让人怀疑,何小鹏是不是在英美长期生活过。

配合着他从容自信的神态和动作,一瞬间,一个优秀的中国企业家精英立身于前。

随后,不管是他幽默风趣地介绍产品,还是表达对AI未来的愿景都透着一股令人信服的能量。

针对何小鹏这条视频,经纬中国创始管理合伙人张颖发表了评论:

打开网易新闻 查看更多图片

而这种流利的英文表达目前类似HeyGen这样的AI视频翻译工具可以做到。

打开网易新闻 查看更多图片

作为在相关领域较为优秀的 AI 工具,在正常的语言翻译之外,HeyGen还可以模拟真人的口型、音色、语气,实现更真实的视频语音转译

此前,“霉霉”泰勒·斯威夫特和川普说普通话、郭德纲飙英文的视频曾经走红网络,这两支视频疑似出自HeyGen之手。

打开网易新闻 查看更多图片

除了HeyGen,国内外还有其他的AI工具,正在为大众提供相关服务。

比如大家熟悉的剪映,现在也可以让视频中讲中文的人一键说外语。

能预见的是,随着技术的提升,接下来的转译视频会越来越真。

这有利有弊,一方面,可以降低不同地区人群的沟通交流成本;

另一方面,需要提防不法之徒侵害社会安全,今年就曾有过社交账号“俄罗斯美女”的诈骗活动,引发了行业与公众对AI数据安全、伦理道德、法律责任的广泛关注。

打开网易新闻 查看更多图片

△ AI生成的“俄罗斯美女”

生产工具决定生产力,并且其变革推动着社会形态的变迁‌。

尽管对于AI的使用仍有很多问题待于跟进,但是面对势不可挡之潮,优先尝试可能更利于工作与生活

尤其是很多企业家,可以借助AI镀金个人名片,打造更亲切和高知的海外形象,让全球领略到中国企业家的风采

以董明珠为例,“中女”崛起是近几年世界范围内的热门话题,请她用一口流利的英文,输出中国女性的独立、坚韧和气度,势必会引起一波热议。

打开网易新闻 查看更多图片

△ 董明珠

再以任正非为例,华为公司在他的带领下,不仅在技术上取得了重大突破,还在国际市场上赢得了广泛的认可和尊重。

如果能再“说”一口流利的外语,那么世界将进一步欣赏到其个人魅力、卓越的领导力和精准的战略眼光。

打开网易新闻 查看更多图片

△ 任正非

另外,其他想从事海外工作的国内创始人亦可使用此方法,进行个人和公司品牌包装。

对此,极客电影推荐7款AI视频语音转译工具,各位极客朋友们可以择选其中,尝试一番。

01 HeyGen

打开网易新闻 查看更多图片

HeyGen原名“Movio”,其背后公司时云科技由Joshua XuWayne Liang于2020 年11月在洛杉矶创立。所使用的模型是自研的多模态内容生成引擎“Surreal Engine”。

打开网易新闻 查看更多图片

△ Wayne Liang(左)和 Joshua Xu(右)

在今年3月21日,HeyGen正式发布了5.0版本,当前支持40多种语言下300多种语音的自然发音,可以让用户从不同种族、年龄和姿势的 100多个AI头像中进行选择,使其以自然的口型同步进行念稿,具有非常丰富的个性化设置

打开网易新闻 查看更多图片

其核心在于深度融合了语音识别、语音合成、口型生成以及视频处理等多项先进技术。

以泰勒·斯威夫特说普通话为例,首先,HeyGen通过先进的语音识别技术,将霉霉的英文原声转换为文字,确保信息的准确无误;

接着,利用语音合成技术,将识别出的文字转换为地道的中文发音,发音、音色和语调在这个环节完成;

然后,采用面部捕捉和口型生成技术,实现口型匹配,同时深度分析霉霉的面部特征,生成与中文发音相对应的口型动画。

最后,将生成的中文发音和口型动画与原始视频进行融合,确保声音、口型与视频画面的同步。

打开网易新闻 查看更多图片

02 BodyTalk

BodyTalk也是一款能够将视频中人物声音精准转换为其他语言的AI工具,由一家名为Panjaya的公司创立。

打开网易新闻 查看更多图片

区别于HeyGen为全自研技术,BodyTalk采用的是“自研+三方”的混合型技术策略,其中,唇形同步引擎为内部研发。

目前,BodyTalk支持29种语言的翻译,可以复制说话者的原声特征,以及自动调整视频中人物的面部表情和肢体动作,使其与新语言的语音模式自然匹配。

其工作流程首先是进行音频翻译,然后是生成模仿原声说话者的新语音,接着是自动调整视频中说话者的口型和动作以匹配新的语言表达。处理一段视频的时间大抵需要几分钟

打开网易新闻 查看更多图片

△ BodyTalk工作流程

03 LipDub

LipDub是一款视频语音翻译和口型同步的移动APP,由2021年成立的公司Captions出品,目前支持28种语言,早些时候曾在App Store上线。

打开网易新闻 查看更多图片

其能够准确识别视频中的语音,使用GPT-4将其翻译成其他语言,并使用“ zero-shot model(零样本模型)”算法,将翻译后的语音与视频人物的口型进行匹配,让用户在几分钟内“用外语交流”

打开网易新闻 查看更多图片

使用过程亦相对简单:上传一段视频、选择目标语言、获得带有新语音和口型同步的翻译视频。全程仅需要几分钟的时间。

04 LipDub AI

LipDub AI由加拿大公司MARZ开发,其与Captions 的LipDub不是一款工具。LipDub AI主要面向影视行业,为影视配音提供高质量的翻译视频。

其处理1分钟的视频片段需要的运行时间不到20分钟。

打开网易新闻 查看更多图片

区别于其他口型配音AI,LipDub AI没有采用外部大型语言模型,而是使用自己的生成模型,该模型通过录音进行训练。

05 AI Dubbing

AI Dubbing支持多语言语音合成、声音复制、文本和音频处理技术,可以把任意一段音频或者视频快速翻译为29种语言,并且保留说话者的音色特征和情感。

使用上,访问其官网,点击生成一个新项目,上传视频并选择需要转换语种的语言。

另外,AI Dubbing官网还支持粘贴Youtube、TikTok、X(推特)、Vimeo等平台的链接。点击最下方的Create按钮,开始音频复制,完成后即可预览效果。

06 Verbalate

Verbalate由澳大利亚人Grant Davies研发,可支持30分钟的视频。

打开网易新闻 查看更多图片

作为一款通用的视频翻译和唇语同步工具,它能够轻松地将音频/视频内容转换为多种语言,并具备语音克隆和唇语同步功能,触达全球受众,解锁新收入,并扩大视频内容制作规模。

使用上,只需上传一段音频或视频内容,并选择要翻译成的语言。软件将使用语音克隆和唇语同步技术,无缝地翻译和同步内容。

您还可以自定义音轨并导出翻译后的视频。

07 Spotify

打开网易新闻 查看更多图片

流媒体巨头Spotify也未甘于人后,去年测试了“语音翻译(Voice Translation)”功能,可以复刻播客主播的声音,并使用一样的语气,节奏和速度,提供西班牙语,法语和德语的听力体验。

打开网易新闻 查看更多图片

该功能是Spotify在OpenAI 的自动语音识别 (ASR) 系统Whisper的帮助下开发的,使用了语音转文本生成AI模型来翻译音频文件,并使用语音复制模型来匹配原始说话者的风格。

这项技术的早期测试已经在一些流行的英语播客上进行了,Spotify打算将这一功能扩展到更多的播客,甚至尝试为多语种主持人提供人工智能配音的内容。