基于短语的统计机器翻译性能改进方法研究与系统实现.doc
约55页DOC格式手机打开展开
基于短语的统计机器翻译性能改进方法研究与系统实现,硕士论文 55页共计27429字摘 要本文研究如何提高现有基于短语的统计机器翻译系统的性能,并利用文中提出的思想实现面向特定领域的统计机器翻译系统。文中研究了两种改善基于短语的统计机器翻译系统性能的方法,并结合在通用领域和特定领域的应用给出了实验结果,同时实现了一个面向特...
内容介绍
此文档由会员 bfxqt 发布
硕士论文 基于短语的统计机器翻译性能改进方法研究与系统实现
55页共计27429字
摘 要
本文研究如何提高现有基于短语的统计机器翻译系统的性能,并利用文中提出的思想实现面向特定领域的统计机器翻译系统。文中研究了两种改善基于短语的统计机器翻译系统性能的方法,并结合在通用领域和特定领域的应用给出了实验结果,同时实现了一个面向特定领域的统计机器翻译系统。
文中通过定义多种特征,利用单纯形算法实现了对统计机器翻译系统的翻译结果的重排序(rerank);同时还提出了一种人工定义翻译模板规则的泛化方法,以及翻译模板的匹配算法和翻译模板规则与统计机器翻译系统的融合策略;并基于上述两个思想,辅以记忆库、词典等常用技术,开发了一套面向专利领域的汉英统计机器翻译软件。取得主要成果有以下几方面:
1、 统计机器翻译中判别重排序算法的实现和特征的选择
判别重排序(discriminative reranking)就是指针对某个评估标准对机器翻译程序输出的多个翻译候选结果进行重新排序,重新选择,从中选择出使该标准达到最优时的翻译结果。文中基于实验室开发的基于短语的统计机器翻译系统--孔夫子(Confucius)系统,实现了利用单纯形算法(Simplex Algorithm)进行重排序,定义了多种特征,像英语的语言模型特征,句子序列的词性语言模型特征等,实验表明,无论是在开发集还是在测试集上,无论是在国际评测中的通用集合上还是在特定领域的测试集合上,BLEU值都有比较明显的提高,重排序过程对孔夫子统计机器翻译系统的整体性能的确起到了促进的作用。
2、 融合了翻译模板和统计机器翻译技术的翻译方法
当前,主流的基于短语的统计机器翻译技术对于句子中短语间的长距离调序问题以及句子中非连续的固定搭配的翻译等问题,解决的都不是很理想,而传统的规则方法在这方面则具有一定的优势,因此,我们提出了在统计机器翻译系统中融合翻译模板规则的翻译方法,我们提出了书写人工翻译模板规则的泛化方法,以及翻译模板的匹配算法和翻译模板与孔夫子统计机器翻译系统的融合策略。我们利用传统中药领域的语料重新训练了孔夫子系统,并从语料中抽取出一部分作为开发集和测试集,实验结果表明,翻译模板规则的加入和使用使得系统的BLEU值有较大幅度的提高,并且比较好地解决了句子的长距离调序问题和句子中非连续固定搭配的翻译问题,一定程度上提高了孔夫子统计机器翻译系统的性能。
3、 面向专利领域的统计机器翻译系统——专译家系统
以实验室开发的孔夫子统计机器翻译系统作为翻译的解码核心,加上上述两种性能改进的方法,同时辅以记忆库、词典等模块,我们开发了基于服务器-客户端模式的汉英统计机器翻译软件——专译家系统(TransAngel),该系统为用户提供了方便的操作界面,用户可以动态地添加自定义模板,词典等来指导和校正翻译结果,同时可以进行后台的批量文件翻译。
目录
摘 要 I
目录 V
图目录 VII
表目录 VIII
第一章 引 言 1
1.1概述 1
1.1.1研究背景 1
1.1.2研究现状 2
1.2主要研究内容 2
1.3论文组织结构 3
第二章 统计机器翻译结果的重排序 4
2.1研究背景与研究现状分析 4
2.1.1研究背景 4
2.1.2研究现状分析 5
2.2统计机器翻译系统中重排序的基本原理 6
2.2.1对数线性模型简介 6
2.2.2重排序的基本原理 7
2.3利用单纯形算法进行统计机器翻译系统的重排序 8
2.3.1重排序的基本流程 9
2.3.2重排序中单纯形算法的实现 10
2.4重排序实验中所选特征的介绍及实验结果比较 12
2.5总结 16
第三章 融合了翻译模板和统计机器翻译的翻译方法 18
3.1研究背景 18
3.2翻译模板泛化规则的抽象与定义方法 20
3.3翻译模板匹配算法 23
3.3.1翻译模板匹配算法介绍 23
3.3.2翻译模板匹配算法的实现 24
3.4系统融合策略 25
3.5实验及系统性能介绍 27
3.5.1模板匹配实验对比 27
3.5.2模板匹配后对翻译结果进行重排序的实验介绍 28
3.6总结 29
第四章 面向专利领域的统计机器翻译系统 30
4.1专译家系统的研究与应用背景 30
4.2专译家系统所用到的技术 31
4.2.1翻译系统核心——孔夫子统计机器翻译系统 31
4.2.2翻译模板辅助模块 32
4.2.3翻译结果重排序模块 32
4.2.4翻译记忆库辅助模块 32
4.2.5翻译词典辅助模块 32
4.2.6基于服务器-客户端的多线程调度模式 33
4.3专译家系统的体系结构 33
4.3.1专译家系统的物理拓扑结构 33
4.3.2专译家系统的逻辑结构 35
4.3.3专译家系统的框架结构 36
4.4专译家系统的翻译流程 37
4.5系统主要界面展示 39
4.5.1客户端界面 39
4.5.2服务器端界面 40
4.6专译家系统性能介绍 40
4.7总结 41
第五章 总结 42
5.1总结 42
5.2进一步的工作 43
参考文献 44
关键字:统计机器翻译,判别重排序,单纯形算法,翻译模板,专译家系统
参考文献
[1]. P. F. Brown, S. A. Della Pietra, V. J. Della Pietra, R. L. Mercer. The Mathematics of Statistical Machine Translation, Computational Linguistics, vol. 19, no. 2, 1993.
[2]. Yaser Al-Onaizan, Jan Curin, Michael Jahr, Kevin Knight, John Lafferty, Dan Melamed, Franz-Josef Och, David Purdy, Noah A. Smith and David Yarowsky (1999). Statistical Machine Translation: Final Report, Johns Hopkins University 1999 Summer Workshop on Language Engineering, Center for Speech and Language Processing, Baltimore, MD.
[3]. Philipp Koehn, Franz Josef Och, and Daniel Marcu . Statistical phrase-based translation. In Proceedings of HLTNAACL, 2003, pages 127–133.
[4]. M Collins. Head-Driven Statistical Models for Natural Language Parsing. Ph. D. Thesis, the University of Pennsylvania, 1999.
[5]. Deyi Xiong, Shuanglong Li, Qun Liu, Shouxun Lin, Yueliang Qian. Parsing the Penn Chinese Treebank with Semantic Knowledge. Lecture Notes in Computer Science, Springer-Verlag, Volume 3651, Sep 2005, Pages 70 - 81.
[6]. Deyi Xiong, Qun Liu. 2004. Statistical Chinese parsing with rich linguistic features. in Chinese. Journal of Chinese Information Processing, Vol.19, Pages 61 - 66, March 2005.
[7]. 熊德意,刘群,林守勋,融合丰富语言知识的汉语统计句法分析,中文信息学报,2005, 19(3):61-66
[8]. Yang Liu, Qun Liu, and Shouxun Lin. 2006. Tree-to-String Alignment Template for Statistical Machine Translation. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLING/ACL 2006), pages 609-616, Sydney, Australia, July.
[9]. Kenji Yamada and Kevin Knight. 2001. A syntax-based statistical translation model. In Proceedings of 39th Annual Meeting of the ACL, pages 523-530.
[10]. Yang Liu, Yun Huang, Qun Liu, and Shouxun Lin. 2007. Forest-to-String Statistical Translation Rules. To appear in Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics (ACL 2007), Prague, Czech, June.
[11]. Jonathan Graehl and Kevin Knight. 2004. Training tree transducers. In Proceedings of NAACL-HLT 2004, pages 105-112.
[12]. Libin Shen, Anoop Sarkar, Franz Josef Och. Discriminative Reranking for Machine Translation. In Proc. HLTNAACL 2004.
[13]. Zhongjun He, Yang Liu, Deyi Xiong, Hongxu Hou, and Qun Liu. ICT System Description for the 2006 TC-STAR Run#2 SLT Evaluation. TC-STAR Evaluation Workshop, Barcelona, Spain, June 19-21. 2006.
[14]. W.M. Press, B.P. Flannery, S.A. Teukolsky, and W.T. Vetterling, Numerical Recipes in C: The Art of Scientific Computing, Cambridge Univ. Press, 1992.
[15]. Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation.RC22176 September 17,2001,Computer Science.
55页共计27429字
摘 要
本文研究如何提高现有基于短语的统计机器翻译系统的性能,并利用文中提出的思想实现面向特定领域的统计机器翻译系统。文中研究了两种改善基于短语的统计机器翻译系统性能的方法,并结合在通用领域和特定领域的应用给出了实验结果,同时实现了一个面向特定领域的统计机器翻译系统。
文中通过定义多种特征,利用单纯形算法实现了对统计机器翻译系统的翻译结果的重排序(rerank);同时还提出了一种人工定义翻译模板规则的泛化方法,以及翻译模板的匹配算法和翻译模板规则与统计机器翻译系统的融合策略;并基于上述两个思想,辅以记忆库、词典等常用技术,开发了一套面向专利领域的汉英统计机器翻译软件。取得主要成果有以下几方面:
1、 统计机器翻译中判别重排序算法的实现和特征的选择
判别重排序(discriminative reranking)就是指针对某个评估标准对机器翻译程序输出的多个翻译候选结果进行重新排序,重新选择,从中选择出使该标准达到最优时的翻译结果。文中基于实验室开发的基于短语的统计机器翻译系统--孔夫子(Confucius)系统,实现了利用单纯形算法(Simplex Algorithm)进行重排序,定义了多种特征,像英语的语言模型特征,句子序列的词性语言模型特征等,实验表明,无论是在开发集还是在测试集上,无论是在国际评测中的通用集合上还是在特定领域的测试集合上,BLEU值都有比较明显的提高,重排序过程对孔夫子统计机器翻译系统的整体性能的确起到了促进的作用。
2、 融合了翻译模板和统计机器翻译技术的翻译方法
当前,主流的基于短语的统计机器翻译技术对于句子中短语间的长距离调序问题以及句子中非连续的固定搭配的翻译等问题,解决的都不是很理想,而传统的规则方法在这方面则具有一定的优势,因此,我们提出了在统计机器翻译系统中融合翻译模板规则的翻译方法,我们提出了书写人工翻译模板规则的泛化方法,以及翻译模板的匹配算法和翻译模板与孔夫子统计机器翻译系统的融合策略。我们利用传统中药领域的语料重新训练了孔夫子系统,并从语料中抽取出一部分作为开发集和测试集,实验结果表明,翻译模板规则的加入和使用使得系统的BLEU值有较大幅度的提高,并且比较好地解决了句子的长距离调序问题和句子中非连续固定搭配的翻译问题,一定程度上提高了孔夫子统计机器翻译系统的性能。
3、 面向专利领域的统计机器翻译系统——专译家系统
以实验室开发的孔夫子统计机器翻译系统作为翻译的解码核心,加上上述两种性能改进的方法,同时辅以记忆库、词典等模块,我们开发了基于服务器-客户端模式的汉英统计机器翻译软件——专译家系统(TransAngel),该系统为用户提供了方便的操作界面,用户可以动态地添加自定义模板,词典等来指导和校正翻译结果,同时可以进行后台的批量文件翻译。
目录
摘 要 I
目录 V
图目录 VII
表目录 VIII
第一章 引 言 1
1.1概述 1
1.1.1研究背景 1
1.1.2研究现状 2
1.2主要研究内容 2
1.3论文组织结构 3
第二章 统计机器翻译结果的重排序 4
2.1研究背景与研究现状分析 4
2.1.1研究背景 4
2.1.2研究现状分析 5
2.2统计机器翻译系统中重排序的基本原理 6
2.2.1对数线性模型简介 6
2.2.2重排序的基本原理 7
2.3利用单纯形算法进行统计机器翻译系统的重排序 8
2.3.1重排序的基本流程 9
2.3.2重排序中单纯形算法的实现 10
2.4重排序实验中所选特征的介绍及实验结果比较 12
2.5总结 16
第三章 融合了翻译模板和统计机器翻译的翻译方法 18
3.1研究背景 18
3.2翻译模板泛化规则的抽象与定义方法 20
3.3翻译模板匹配算法 23
3.3.1翻译模板匹配算法介绍 23
3.3.2翻译模板匹配算法的实现 24
3.4系统融合策略 25
3.5实验及系统性能介绍 27
3.5.1模板匹配实验对比 27
3.5.2模板匹配后对翻译结果进行重排序的实验介绍 28
3.6总结 29
第四章 面向专利领域的统计机器翻译系统 30
4.1专译家系统的研究与应用背景 30
4.2专译家系统所用到的技术 31
4.2.1翻译系统核心——孔夫子统计机器翻译系统 31
4.2.2翻译模板辅助模块 32
4.2.3翻译结果重排序模块 32
4.2.4翻译记忆库辅助模块 32
4.2.5翻译词典辅助模块 32
4.2.6基于服务器-客户端的多线程调度模式 33
4.3专译家系统的体系结构 33
4.3.1专译家系统的物理拓扑结构 33
4.3.2专译家系统的逻辑结构 35
4.3.3专译家系统的框架结构 36
4.4专译家系统的翻译流程 37
4.5系统主要界面展示 39
4.5.1客户端界面 39
4.5.2服务器端界面 40
4.6专译家系统性能介绍 40
4.7总结 41
第五章 总结 42
5.1总结 42
5.2进一步的工作 43
参考文献 44
关键字:统计机器翻译,判别重排序,单纯形算法,翻译模板,专译家系统
参考文献
[1]. P. F. Brown, S. A. Della Pietra, V. J. Della Pietra, R. L. Mercer. The Mathematics of Statistical Machine Translation, Computational Linguistics, vol. 19, no. 2, 1993.
[2]. Yaser Al-Onaizan, Jan Curin, Michael Jahr, Kevin Knight, John Lafferty, Dan Melamed, Franz-Josef Och, David Purdy, Noah A. Smith and David Yarowsky (1999). Statistical Machine Translation: Final Report, Johns Hopkins University 1999 Summer Workshop on Language Engineering, Center for Speech and Language Processing, Baltimore, MD.
[3]. Philipp Koehn, Franz Josef Och, and Daniel Marcu . Statistical phrase-based translation. In Proceedings of HLTNAACL, 2003, pages 127–133.
[4]. M Collins. Head-Driven Statistical Models for Natural Language Parsing. Ph. D. Thesis, the University of Pennsylvania, 1999.
[5]. Deyi Xiong, Shuanglong Li, Qun Liu, Shouxun Lin, Yueliang Qian. Parsing the Penn Chinese Treebank with Semantic Knowledge. Lecture Notes in Computer Science, Springer-Verlag, Volume 3651, Sep 2005, Pages 70 - 81.
[6]. Deyi Xiong, Qun Liu. 2004. Statistical Chinese parsing with rich linguistic features. in Chinese. Journal of Chinese Information Processing, Vol.19, Pages 61 - 66, March 2005.
[7]. 熊德意,刘群,林守勋,融合丰富语言知识的汉语统计句法分析,中文信息学报,2005, 19(3):61-66
[8]. Yang Liu, Qun Liu, and Shouxun Lin. 2006. Tree-to-String Alignment Template for Statistical Machine Translation. In Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLING/ACL 2006), pages 609-616, Sydney, Australia, July.
[9]. Kenji Yamada and Kevin Knight. 2001. A syntax-based statistical translation model. In Proceedings of 39th Annual Meeting of the ACL, pages 523-530.
[10]. Yang Liu, Yun Huang, Qun Liu, and Shouxun Lin. 2007. Forest-to-String Statistical Translation Rules. To appear in Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics (ACL 2007), Prague, Czech, June.
[11]. Jonathan Graehl and Kevin Knight. 2004. Training tree transducers. In Proceedings of NAACL-HLT 2004, pages 105-112.
[12]. Libin Shen, Anoop Sarkar, Franz Josef Och. Discriminative Reranking for Machine Translation. In Proc. HLTNAACL 2004.
[13]. Zhongjun He, Yang Liu, Deyi Xiong, Hongxu Hou, and Qun Liu. ICT System Description for the 2006 TC-STAR Run#2 SLT Evaluation. TC-STAR Evaluation Workshop, Barcelona, Spain, June 19-21. 2006.
[14]. W.M. Press, B.P. Flannery, S.A. Teukolsky, and W.T. Vetterling, Numerical Recipes in C: The Art of Scientific Computing, Cambridge Univ. Press, 1992.
[15]. Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation.RC22176 September 17,2001,Computer Science.