本周三场小直播,有空欢迎来看~

你有一部影片,但是没有字幕怎么办?AI可以帮你。

我一直想公众号的内容应该怎么划分,现在思路清晰了,近期更新内容将主要围绕「AI」,再具体一点,会围绕「AI+应用场景」,目前应用领域主要分为5个:文字、图片、音频、视频和数字人,今天我们先来看一个文字应用案例——如何让你成为「一个人的字幕组」,沿着这个思路,我们还可以看更多行业和岗位。

AI的出现,逐渐改变每个行业、岗位的工作方法,翻译和字幕组首当其冲。

打开网易新闻 查看更多图片

传统字幕工作流

我加入过一些野生字幕组,组内工作流程一般是这样的:

  1. 听译:如本身有外语字幕可以跳过第一步

  2. 字幕时间轴编辑:使用字幕编辑软件Aegisub或其他完成

  3. 翻译:最重要的部分,想要翻译信达雅就靠这个环节

  4. :可以和环节3由同一人完成也可以交叉校对

  5. 压制:把字幕和视频合二为一

这其中经常是 由多人配合完成的,而现在,你一个人+AI工具,但可以用更快的速度搞定一切。

AI翻译有两个好处:

第一,相较于普通翻译工具,更精准、更自然,你甚至可以通过训练指定某种语气、风格。 第二,相较于人工翻译,节省大量时间和精力。

怎么操作?

方法1 | 完全傻瓜式剪映操作

1. 剪映识别英文字幕选中视频后点击【文本-智能字幕】

2. 剪映翻译中文字幕修改【识别字幕】中语言为【中文】,再次【开始识别】

打开网易新闻 查看更多图片

3. 搞定!

请欣赏这篇完全由Sora生成的“概念短片”——Air Head。其中字幕全部由【方法1】生成(未经审校修改)。

其实我一开始就是为了分享这部短片,由总部位于多伦多的媒体制作公司shy kids创作,完全由Sora生成, 在翻译字幕的过程中发现,目前的工作流对大家可能有帮助。

打开网易新闻 查看更多视频
一个人的字幕组 | 你从今天实现双语字幕自由

如果你想的话,还可以为字幕修改样式,选中中英文字幕,点击【文本-预设样式】,可以快速选择样式。

毫不夸张地说,翻译这段Sora生成的1分半钟的视频,完成整个工作流程耗时不超过20秒。但缺点也很明显,字幕识别不够准确,比如语气词丢失、断句不准确、翻译生硬等。所以,我们迎来了方法2。

方法2 | 训练自己的GPTs

如果你想要翻译结果更【多样化】,比如自定义翻译的语气、风格、用词,那么可以使用方法2——训练自己的GPTs完成双语翻译步骤。

使用工具:剪映+GPT配合完成

工作流如下:剪映识别英文字幕→导出SRT字幕→GPT双语翻译→输出SRT字幕→剪映中合成字幕视频

1. 剪映识别英文字幕
选中视频后点击【文本-智能字幕】

2. 剪映导出字幕文件取消勾选【视频导出】和【音频导出】,仅选择字幕导出即可。

打开网易新闻 查看更多图片

3. 借助GPTs实现双语翻译

调试好你需要的翻译风格、语气,甚至可以给出供GPT学习的翻译样本案例,然后就简单啦——上传字幕文件,自动开始翻译,并提供翻译完成的SRT字幕文件供你下载。

4. 导入SRT字幕文件,输出视频即可。

最后一步还是在剪映里完成,仍然可以按你所需调整字幕样式。

方法3 | 借助网站工具

如果你懒得自己训练GPTs,也可以使用市面成熟的服务,比如「MemoAI」或国内的「快转字幕」

「MemoAI」官方网站:https://memo.ac,支持直接复制YouTube、Podcast链接进行转录,也可以上传本地音视频文件转换为文本,支持包括中日英的90多种语言,可以实现转录的同时,借助人工智能,完成多语种的翻译,非常便捷。

更重要的是!目前测试阶段所有功能完全免费,你只需要填写邮箱,免费申请一个【邀请码】即可开始使用,申请链接:

https://store.memo.ac/checkout

打开网易新闻 查看更多图片

更长的影片和字幕怎么办?

以上3种方法可以处理大部分的影片,但也存在3个问题

  1. 如果你的影片很长、字幕很多,那么翻译速度较慢,也无法批量处理

  2. 翻译的准确性与意境并非最佳,只能在审校阶段自己调整,比如下方这里,翻译的有点“一塌糊涂”:

“or all”以及被分离的“pin prick”正确的英文应该是“We're all just a pinprick away from deflation.”

完整原句:

I'm reminded every day that life is fragile,We're all just a pinprick away from deflatio

剪映翻译为:

我每天都被提醒生命是脆弱的,或者一切都只是远离通货紧缩的针刺。

而更好的翻译是:

我每天都深刻意识到生命的脆弱性,我们每个人都如同充满气的气球,一根针就能让我们瞬间失去一切

这里的deflation不是“通货紧缩”,而是“泄气”或者“失去一切”,在这个语境下更恰当一点。

  1. 付费:GPTs需要Plus会员,剪映的字幕翻译也只需要VIP会员,MemoAI目前免费,但也只是内测期免费。

开源工具

所以,重点来啦!我们学AI,就得学最本质的技能——善用【开源工具】,【开源工具】一般都拥有着最强大的能力,比如不限字数、准确度还高,同时还永久免费使用,唯一的缺点就是用起来稍稍麻烦一点。

在字幕翻译的场景下,最适合使用的两款工具分别是:

  • Whisper超长文本精准识别、断行、打标点,其中的Large大模型识别、断句均更准确,比方说下方红框里的“Ugh”,剪映就无法识别与转录,在精度要求更高的情况下,还是Whisper更厉害。

  • 小丸工具箱:字幕压制则可以使用小丸工具箱,实现快速压制、批量处理。

它们还能用在哪?

顺便一说,Whisper的使用不仅局限于【字幕识别】,它的本质功能是ASR(automatic speech recognition),也就是自动语音识别技术的简写,通俗点说就是【高质量的音频转文字】,它的三个特点:

免费方便:一次配置模型好后,一直可以免费使用 速度快:1小时的音频几分钟即可完成,fast-Whisper更是要比原生Whisper再快4倍 字数多:支持海量文字工作,不会像其他网站按字数给你计费

所以用好了,可以完美解决包括不限于以下场景的各种问题:

  • 记者:把录音笔里的稿件转录为准确文字;

  • 会议记录:快速语音变文字,如果使用多角色识别版本的whisperx,甚至可以清楚地区分每个讲话人,把会议记录总结为结构清晰的会议纪要,全程无需人为参与;

  • 律师:将谈话记录转换为文字;

  • 讲座与课程的转录文字;

  • 客服电话记录转录文字;

  • 作家或自媒体内容创作者口述文稿转录文字;

  • 心理咨询与问诊音频转录文字;

  • 口述历史转录文字;

  • 等等一切与音频转文字相关的工作……

顺便说一句,【音频转文字】的系列工具使用起来细节很多,因此,我会在今天(4月1日)进行一场面向AI课往期老学员的视频直播小课,进行详细应用讲解(包括以上提到的【开源工具】的使用),大家记得今天晚上来趁早行动直播间看哦,下方二维码可预约~

新同学也可以扫码预约前半场,和我进行连麦聊天问答,提出你关于AI学习的疑问。

点这里,也可以直接预约三场↓

还可以扫码加入

「AI仓鼠洞学习交流群」

扫码添加备注「入群」