公务员期刊网 论文中心 正文

计算机辅助框架英语依赖性翻译研究

计算机辅助框架英语依赖性翻译研究

摘要:英语翻译的核心在于对上下文依赖性的分析,本文介绍了最小依赖翻译(MinimalDependencyTranslation,MDT),旨在开发基于规则的框架,以创建基本的双语词典语法。通过机器翻译和计算机辅助翻译的融合,实现英语到其他语言的翻译,MDT中的基本单位(称为组)是带标题的多项目序列。除单词形式外,组还可以包含词素、句法语义类别和语法特征。每个组与一个或多个翻译相关联,每个翻译都是目标语言中的一个组。在翻译过程中,约束满足用于选择输入句子的一组源语言组并在相关的目标语言组中对单词进行排序。

关键词:英语翻译;最小依赖翻译;机器翻译;多项目序列;语法特征

1引言

对于世界上大多数语言,由于缺乏足够的语法资源,因此无法采用机器学习技术完成语言的翻译。尤其对于机器翻译(MachineTranslation,MT)和计算机辅助翻译(Computer-AssistedTranslation,CAT),语法缺陷造成机器算法无法识别,因为机器学习所需的是句子对齐的翻译,相比单语语料库更为复杂。但是,对于资源匮乏的许多语言确实存在语言描述和相当多的母语使用者群体,包括亚洲语言(例如汉语、缅甸语),非洲语言(例如豪萨语)以及美洲原住民语言(例如盖丘亚语和瓜拉尼语)。因此,需要一种计算机框架,该框架有助于人们快速创建计算语法和词典,并通过可用的有限语料库对其进行自动扩展[1-2]。本文着重于将MT(尤其是CAT)转化为汉语之类的语言,通过信息系统,允许很少或没有语言经验的用户编写针对低资源语言的双语词典语法,这些语法也可以在语料库基础上更新,并且可以轻松集成进入CAT系统。利用最小依赖翻译(MDT)思想,设计了针对MT和CAT的词汇语法框架。MDT的核心是称为组的短语单元词典。群组的条目将翻译指定为一种或多种其他语言的群组。

2辅助框架设计

翻译系统的核心是对语言词组、短语的识别以及语句词法的交互,因此辅助框架的设计在于对以上核心内容的实验,本章节主要按照词组词典、短语词典、词典语法交易等模块进行简要设计。(1)词组词典将短语而不是单个单词视为语言的基本单位的想法至少可以追溯到贝克尔提出的“短语词典”。近年来,该模式在构造语法[3]和框架语义[4]的相关框架以及基于短语的统计机器翻译中得到了广泛的应用。支持短语单元的论点通常是根据惯用性的普遍性来构架的,即偏离严格的构成性。从另一角度看,短语单元可以解决词汇歧义的普遍性。如果动词的解释取决于其宾语或主语,则将动词与特定宾语或主语的组合视为自身的单位可能更有意义。基于惯用性和歧义性的论点是语义性的,但它们自然地扩展到翻译。如果源语言短语的含义不能严格表达该短语中单词的含义,则该短语的翻译不太可能是源语言单词的翻译的组合。向歧义词添加词法上下文可以允许MT系统选择适当的翻译。(2)简单的短语词典MDT的基本词汇条目是称为组的多词单元。每个组代表一个链组合,链超出了组成部分,包括在依赖关系树中在垂直维度上连续的元素的所有组合。例如,在该句子中“Igaveherapieceofmymind”,{I,gave}和{gave,her,piece}是链组合,但并不是句子的组成部分[5-6]。链有一个头,每个MDT组也必须有一个头,该头在词典中索引该组。该组中的其他元素是头部的从属,但该组没有详细的结构。因此,该组就构成一个最小的依赖结构。组的条目还约束了以一种或多种其他语言对小组的翻译,对于每种语言的翻译,组的条目给出一个对齐方式,表示元素之间的组间对应关系,如下所示:在基于短语的统计机器翻译的词组中,如图1所示显示了这种简单的组条目。英语词组<onewayortheother>,在翻译过程中将<一种方式,另一方式>作为汉语翻译词组该组在汉语词典中有自己的对应条目,在对齐过程中,英语组中的三个单词与汉语词组中的位置相关,而其他字符(\0)在汉语词组中不存在任何单词对应。(3)词典语法交易基本词典在两个意义上实现较为简单:给定适当的接口,不具有语言学正式知识的用户可以以直接的方式添加条目,并且易于理解所得的条目。这样的词典允许翻译作为组条目中单词形式的组合的句子,只要在整个语言中保持组顺序并且组之间不存在会影响目标语言词的形式的约束即可。但是,这样的词典不允许将其推广到词典中未明确显示的字形组合,对于每个合理可能的字形组合,都需要一个组条目。在MDT系统中,目标是从纯词汇(和短语)到句法/语法的连续性范围内的各种可能性,重点是易于创建和解释条目。(4)词汇/语法类别跨组概括的另一种直接方法是引入句法或语义类别,可以通过用包括可能影响该位置的字形的类别替换组中特定位置的特定字形,来概括特定的单词序列,由于按类别划分的组位置未指定表面形式,因此在翻译过程中必须将它们与匹配该类别的其他组合并并指定一种形式。例如,在翻译嘲弄市长的序列时,组<makevfunof$sbd>中的位置4可能会被组<themayor>的首位占据,此节点合并过程如图1所示。

3系统算法设计

本文为MT开发基于规则的开源系统,并且在相对浅薄的分块语法框架内工作。本文提供了一系列的语法可能性,从一个极端的完全词法到由一个词素和一个或多个句法/语义类别组成的短语单元,并不担心MDT语法会接受许多不合语法的源语言句子,甚至输出不合语法(与语法一起)的翻译。因为MDT专注于短语的翻译,并且输出通常会输出多种翻译而不是完整的句子,所以它比MT更适合于CAT。尽管MDT并非旨在作为一种语言理论,但它把语言知识视为本质上的短语,像同步上下文无关文法一样,它以两种语言关联多字单元,对齐单元的元素并在每种语言中表示单词顺序。MDT与不同,它没有重写规则或非终止规则,MDT属于依存于语法理论族,因为其短语单元的头是单词或词素,而不是非末尾。但是,它仍然是语法理论族的一种非常原始的形式,只允许在具有未标记弧的结构上使用,这意味着只能通过特定的组来捕获复杂的语法现象,例如长距离依赖性和字序可变性。本文基于MDT的语言翻译思想来约束满意度作为评价标准,如图1所示以“Shemadefunofthemayor”作为翻译对象,按照最小依赖度算法进行翻译的过程描述[7]。具体算法步骤描述如下:1)在对输入句子进行标记化之后,对句子中的词形进行词性标注并进行词法分析;2)接下来,将被分析单词的序列与词法转换规则匹配;3)在例句中,有两个规则匹配,一个规则用于她,后跟一个过去式动词,一个规则用于后跟一个名词。第一个规则为动词分配完美的方面并将其删除,第二个将名词定义为名词,然后删除;4)由该第一遍产生的单词或词素用于在组字典中查找候选组。为了完成句子分析,系统将一组组分配给输入句子。成功的组分配将句子中尽可能多的词与一个组相关联,并且没有一个单词与一个以上的组相关联,除非该词表示一个节点合并。较长的组比较短的组的序列长。在此示例中,组<make_vfunof$sbd>的实例中的$sbd节点与组<mayor_n>的实例合并(第五步)。在翻译阶段,源语言组分配将转换为主要目标语言组的分配(第六步)。在此过程中,将根据来自源组条目的跨语言协议约束,为某些目标语言项目分配语法特征。在例句中,汉语动词从英语动词获取其tam和sb特征值,而名词从英语名词获取其def特征值。就长期实现而言,MDT利用知识获取技术和天真的单语种信息提供者来开发将低资源语言翻译成英语的MT系统。尽管MDT并非旨在作为一种语言理论,像构造语法和框架语义学[8]一样,它把语言知识视为本质上的短语。对MDT实施的评估应该分为两种类型:翻译的准确性和具有CAT的系统的可用性。有几种商业英语{Am-haric机器翻译系统,包括由Ethio-Cloud开发的GoogleTranslate和AbyssinicaTranslator。通过检查Google翻译的语法结构,我们可以突出本算法的优势,该语法模式是旨在捕获的。给定该系统要进行Amharic翻译的大约2700个英语动词,其结果是成千上万的可翻译模式,从可能的动词模式,代词和六个常用动词中随机选择。在由此产生的54个句子中,Google翻译仅输出一个语法正确的动词。另一方面,该算法在三个句子翻译上只犯了一个小错误,把他写成直接而不是间接的对象。

4结束语

语言翻译的核心是复杂语法的计算,以及语法上下文间的解析及最终语句的生成。本文提出一种采用最小依赖性翻译的计算机辅助框架,可快速的实现语言翻译的部署,从翻译过程中的词语词典、短语词典、词典语法交易以及词汇/语法类别等方面进行了介绍,并以简单的示例介绍了MDT算法。

参考文献:

[1]于涛.基于索引行聚类的英语动词型式自动识别与提取研究[D].北京:北京外国语大学,2015.

[2]林鸿飞,张冬瑜,杨亮,郑朴琪.情感隐喻计算及其应用研究[J].大连理工大学学报,2015,55(6):661-670.

[5]哈里旦木•阿布都克里木,刘洋,孙茂松.神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J].清华大学学报(自然科学版),2017,57(8):878-883.

[6]张永花,吴颖.基于语料库的机辅翻译错误分析[J].海外英语,2017(6):116-117.

[7]张仲伟,曹雷,陈希亮,寇大磊,宋天挺.基于神经网络的知识推理研究综述[J].计算机工程与应用,2019,55(12):8-19,36.

作者:高艳梅 单位:咸阳师范学院外国语学院