一、简介

金声语料对齐助手是一款语料在线对齐工具,可利用该工具完成语料对齐,目前支持 DOCX、TXT、TMX、XLSX 等格式下载,且对齐后的语料可直接保存至金声语言资产管理平台中查找使用。平台目前支持每日 3 次免费下载。

打开网易新闻 查看更多图片

二、双文档操作

首先进行双文档导入,点击上传框进行文件上传或者进行拖拽上传。

注意:单语是双文档,双语是单文档,不要把单双语和单双文档弄混

在文件上传后,点击对齐,获得对齐结果

打开网易新闻 查看更多图片

之后仔细观察,序号格的颜色进行修正。

比如绿色,是百分之百正确无需更改的部分。

比如黄色,是可能出现错误的地方,因此我们需要再次检查,进行修改。

在仔细观察之后,我们发现确实出现了句段划分的问题,因此我们可以通过拆分、合并加上删除单元格的方式进行修改。(如下图)

打开网易新闻 查看更多图片

将光标放在需要拆分的地方,点击拆分,得到拆分后的结果

划定单元格后,点击合并,形成正确的版本。

之后,选定中文部分,点击上移。

打开网易新闻 查看更多图片

随后删除后面多余的单元格即可,形成正确的结果。

在这里补充第二种方法,可以直接使用在线编辑功能,将需要切分的后半部分复制,粘贴到下一单元格前,速度更快,更便捷。

三、单文档对齐

首先按照上面的操作导入单个双语文档,点击对齐,形成对齐结果。

之后进行检查,对齐结果,在这里我们会发现另一种颜色标识,即红色标识。

红色色块是表示该处对齐百分之百有错,需要我们加以修改。

四、功能特色
1、设置


导入设置可使用设置工具对工具做设置以提高对齐效率。导入类型分为标准与智能两种方式。
  1. 标准导入
严格按照段落或表格方式导入,将段落分布在编辑区左右两侧。这一导入方式适合经过初步处理的文档。(适用于格式规整的文档)
  1. 智能导入
检测各段落语言后,根据语言不同,将其分布在编辑区左右两侧。这一导入方式适合未经过处理的文档。不过由于检测语言可能有误,因此可能会有错误。

2、根据颜色分组精细化调整

绿色

编号呈绿色,说明段落拆分后,原文句段与译文句段数量相同,结果通常不用更改。

黄色

段落拆分后,原文句段与译文句段数量不同。如本例第14行所示,原文1句,译文2句。

红色


段落拆分后,原文句段与译文句段数量不同,结果通常必须更改。本例中,需要将原文第三第四两个单元格合并。

3、自动保存与手动保存
自动保存:网站刷新或者页面关闭后,仍可恢复至最新状态。在提示弹窗内点击“恢复”即可。

手动保存:点击页面上方的“暂存”,为当前需要保存的数据起名。

4、区间交换
按住ctrl键,选中译文栏/原文栏两个不相连的单元格,点击区间互换,会使包括选中单元格之间所有的单元格内容进行左右互换。(如图)

5、文档导出
可以导出以下五种格式的文档,但每次下载需要1金币。

6、术语提取
可以选择词频、词长进行提取,但需要花费金币

文章地址链接:https://gs-lam.com/aligner
本期分享就到这里啦,下期将为大家讲解Language X,敬请期待哦。

特别说明:本文仅用于学术交流,如有侵权请后台联系小编删除。

供稿:北外CAT研究小组 1

转载编辑:陈柯淼