基于web的大规模双语平行语料库自动获取技术研究与系统实现.doc

约60页DOC格式手机打开展开

基于web的大规模双语平行语料库自动获取技术研究与系统实现,60页共计31159字摘 要大规模双语语料库的建设与获取存在着很大的困难,虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。这也间接导致了目前的统计机器翻译系统仍然主要处于实验室开发研究阶段,离实际的应用还有一定的距离。本文致力于...
编号:45-37691大小:1.44M
分类: 论文>计算机论文

内容介绍

此文档由会员 bfxqt 发布

60页共计31159字
摘 要
大规模双语语料库的建设与获取存在着很大的困难,虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。这也间接导致了目前的统计机器翻译系统仍然主要处于实验室开发研究阶段,离实际的应用还有一定的距离。本文致力于构建一个基于Web的大规模双语平行语料库自动获取平台。取得主要成果有以下几方面:
1. 研究了双语平行资源在互联网上的存在形式并探索了相应的获取方法
互联网上虽然存在着海量的多语言文本资源,但任何系统都无法将所有的互联网文本进行处理,从而获取所需的特定双语平行的语料库。因此需要定义一种启发式信息来概括这类多语种平行文本存在的共同特征,以此作为一个有效的入口,来获取我们关心的Web资源。以往的系统都致力从一些双语网站中获取互为翻译的双语网页对。但是通过观察,我们发现在Web上双语平行资源不仅存在于两个平行的单语网页中,还存在于双语对照的同一网页中。本文对这两种资源都定义了有效的启发式信息,从而很好地解决了大规模数据的来源问题。
2. 提出了基于URL命名相似性的双语候选网页获取算法
网络作者在进行双语平行网页URL命名时往往具有一定的规律性,两个URL之间一般只有与语种相关的部分字符串不相同。以往的系统在这个环节需要预先定义在URL命名中常见的与特定语种相关的前后缀表。本文提出了一种可以自动发现一个具有命名规律性的双语网站中双语平行网页之间命名规律的方法,不再依赖预定义。实验表明,本文的方法不仅可以发现所有常见的URL命名规律,而且还可以找出不同的网页编辑者带个人特色的URL命名规律,从而可以找出尽可能多的可信的中英候选网页对。综合各方面的评估与评价,该方法可以充分挖掘出具有命名相似性的双语网站中存在的双语平行网页,初步解决了双语语料库的获取难题,达到了本文预期的目的。
3. 改进了双语平行句对抽取技术
双语平行的网页文本不同于一般的双语对照文本,其中不仅存在有用的双语对照信息,还存在一定的无关信息;此外,网页文本中的词汇量也大大超出任何一本双语词典的范围。这些都造成了对双语平行网页进行句子对齐的难度。以往的系统在这方面研究都是利用双语平行网页在其HTML结构上的相似性,但是很少双语平行网页在HTML结构上是完全一致的,其中的噪声很大。因此,得到的双语平行句对的质量也不尽理想。本文提出了一种双语平行句对的抽取技术,不仅可以利用双语平行网页HTML结构相似性这一优点,而且可以牢牢把握住双语平行句对互为翻译这一本质特征,从而取得到了很好的效果。
最后,我们实现了上述三个方面的技术,搭建了一个可以持续获取大规模的双语平行语料库的平台。
目录
摘 要 I
目录 V
图目录 IX
表目录 X
第一章 引 言 11
1.1概述 11
1.1.1研究背景 11
1.1.2国内外研究现状分析 12
1.1.3现有系统介绍与比较 14
1.2主要研究目标和内容 16
1.2.1 研究目标 16
1.2.2 研究内容 17
1.3论文组织结构 17
第二章 基于WEB的双语平行语料库获取的总体架构 18
2.1 基本流程 18
2.2 任务分析与界定 19
2.2.1双语候选资源获取与预处理 19
2.2.2双语候选网页获取 20
2.2.3双语平行网页获取 20
2.2.4双语平行句对抽取 20
2.3 本章小结 21
第三章 双语候选资源获取与预处理 22
3.1研究现状 22
3.2网页间平行语料获取途径 22
3.3网页内部平行语料获取途径 23
3.3.1基本思想 23
3.3.2可行性评估实验 23
3.4 网页解析与去噪声 24
3.4.1网页内容解析 24
3.4.2去噪声处理 24
3.4.2网页语种识别与编码转换 25
3.5本章小结 25
第四章 双语网页URL命名模板的自动发现 26
4.1相关研究 26
4.2双语平行网页URL命名模板的抽象与定义方法 27
4.2双语平行网页URL命名模板的自动发现算法 29
4.3 获取具有 URL 命名相似性的双语候选网页算法 31
4.4实验与分析 32
4.4.1数据描述与实验设置 32
4.4.2实验结果 32
4.5本章小结 33
第五章 双语平行网页获取 34
5.1相关研究 34
5.2基于最大熵分类器的双语平行网页获取 35
5.2.1最大熵分类器 35
5.2.2特征抽取 36
5.2.3模型训练 38
5.3实验与分析 39
5.3.1数据描述与实验设置 39
5.3.2实验结果 39
5.4本章小结 39
第六章 双语平行句对抽取 40
6.1相关研究 40
6.2双语平行句对抽取模型 41
6.2.1模型基本思想 41
6.2.2生成双语候选句对集合 41
6.2.3特征抽取 42
6.2.4分类与后处理过程 44
6.3 实验与分析 44
6.3.1数据描述与实验设置 44
6.3.2实验结果 44
6.4本章小结 45
第七章 双语平行语料库自动获取平台(PPSM)系统实现 46
7.1 主要进程介绍 46
7.2 进程间的数据传递 47
7.3 系统性能介绍 47
7.4 系统成果 48
7.5 本章小结 48
第八章 总结 49
8.1总结 49
8.2下一步工作 50
附录一 网页间平行资源-锚文本列表 52
附录二 网页内部平行资源-锚文本列表 53
附录二 HTML特殊字符转换表 54
附录三 可处理的网页文件类型 55
参考文献 56
致 谢 59

关键词: 双语平行语料库,网页挖掘,双语平行句对,统计机器翻译
参考文献
[1] Philip Resnik. Parallel strands: a preliminary investigation into mining the web for bilingual text. In: Proceeding of the Third Conference of the Association for Machine Translation. America, pages 72-2, 1998.
[2] Church, K. and Mercer, R., “Introduction to the Special Issue on Computational Linguistics Using Large Corpora,” CL 19:1, pp. 1-24, 1993.
[3] Jiang Chen and Jian-Yun Nie. Automatic construction of parallel english-chinese corpus for cross-language information retrieval. In: Proceedings of the International Conference on Chinese Language Computing. San Francisco, pages 21-28, 2000.
[4] Philip Resnik. Parallel strands: a preliminary investigation into mining the Web for bilingual text. In: Proceeding of the Third Conference of the Association for Machine Translation. America, pages 72-82, 1998.
[5] Philip Resnik and Noah A. Smith. The Web as a parallel corpus. Computational Linguistics, volume 29, pages 349-380.
[6] Xiaoyi Ma and Mark Y. Liberman. Bits: A method for bilingual text search over the Web. In: Proceedings of the Machine Translation Summit VII, 1999.
[7] Jisong Chen, Rowena Chau, and Chung-Hsing Yeh. Discovering parallel text from the World Wide WEB . In CRPIT’32: Proceedings of the second workshop on Australasian information security, Data Mining and Web Intelligence, and Software Internationalization. Australia, pages 157-61, 2004.
[8] Ying Zhang, Ke. Wu, Jianfeng Gao, and P. Vines. Automatic acquisition of chinese-english parallel corpus from the web. In: Proceedings of ECIR-06, 28th European Conference on Information Retrieval. ACL, 2006.
[9] Cavnar, W. B. and J. M. Trenkle, ``N-Gram-Based Text Categorization'' In Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, UNLV Publications/Reprographics, pp. 161-175, 11-13 April 1994
[10] E. T. Jaynes, “Information Theory and Statistical Mechanics. II,” Physical Review, vol. 108, no. 2, pp. 171-190; October 15, 1957.
[11] Brown, P. F., J. C. Lai and R. L. Mercer. 1991. Aligning Sentences in arallel Corpora. In Proceedings of 29th Annual Meeting of the Association for omputational Linguistics.
[12] Chen, S. 1993. Aligning Sentences in Bilingual Corpora Using Lexical Information. In Proceedings of 31st Annual Meeting of the Association for Computational Linguistics.
[13] Gale W. A. and K. Church. 1991. A Program for Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics.
[14] Gale W. A. and K. Church. 1991. A Program for Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics.
[15] Zhao B. and S. Vogel. 2002. Adaptive Parallel Sentences Mining From Web Bilingual News Collection. In 2002 IEEE International Conference on Data Mining. page: 745.
[16] Lei Shi, Cheng Niu, Ming Zhou, and Jianfeng Gao. A dom tree alignment model for mining parallel data from the web. In: Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL. Sydney, pages 489-496, 2006.
[17] Dragos Stefan Munteanu and Daniel Marcu. Improving machine translation performance by exploiting non-parallel corpora. Computational Linguistics, volume 31, pages 477-504.
[18] Fei Huang, Ying Zhang and Stephan Vogel. Mingning Key Phrase Translations from Web Corpora, in the Proceedings of the LT-EMNLP-2005:483-490
[19] Dekai WU and Pascale FUNG Inversion Transduction Grammar Constraints for Mining Parallel Sentences from Quasi-Comparable Corpora”. Second International Jint Conference on Natural Language Processing(IJCNLP-2005): 257-268
[20] Gaolin, Hao Yu, Fumihito Nishino. Web-Based Terminology Translation Mining Second International Joint Conference on Natural Language Processing(IJCNLP-2005):1004-1016
[21] Zhang Y. and Vines, Using the Web for Automated Translation Extraction in Cross-Language Information Retrieval In Proceedings of SIGIR-2004:162-169
[22] C.C.Yang and K. W. Li Ming English/Chinese Parallel Documents from the World Wide WEB. Proceedings of the International World Wide WEB Conference, Honolulu, Hawaii, 2002.
[23] Yunbo Cao, Huang Li: Base Boun Phrase Translation Using Web Data and the EM Algorithm Proceedings of the 20th International Conference on Computational Linguistic(COLONG 2002):127-133
[24] 刘非凡,赵军,徐波。大规模非限定领域汉英双语语料库建设及句子对齐研究。全国第7届计算语言联合学术会议,20003:339-345
[25] 常宝宝,詹卫东,张化瑞。面向汉英机器翻译的双语语料库的建设及其管理,《术语标准化与信息技术》,2003(1):28-31
[26] 常宝宝、柏晓静。北京大学汉英双语平行语料库标记规范,《汉语语言于计算学报》,2003.13(2):195-214
[27] 揭春雨,刘晓月,冼景炬,卫真道. 从网络获取香港法律双语语料库. 全国第八届计算语言学联合学术会议(JSCL-2005):193-199
[28] Pu-Jen Cheng, Wen-Hsiang Lu, Jer-Wen Teng, Lee-Feng Chien. Creating Multilingual Translation Lexicons with Regional Variations Using Web Corpora. Annual Meeting of the Association for Computational Linguistics (ACL-2004).
[29] Fei Huang, Ying Zhang and Stephan Vogel. Mining Key Phrase Translations from Web Corpora, in the Proceedings of the HLT-EMNLP-2005:483-490
[30] Tao Tao, ChengXiang Zhai , Mining Comparable Bilingual Text Corpora for Cross-Language Information Integration
[31] Ying Zhang, Fei Huang, Stephan Vogel, Mining Translations of OOV Terms from the Web through Crosslingual Query Expansion
[32] 原双庆,李芳,盛焕烨. 多语种翻译词汇的在线自动抽取. 计算机研究与发展, 2004.5:843-847