

基于web的大规模双语平行语料库自动获取技术研究与系统实现,60页共计31159字摘 要大规模双语语料库的建设与获取存在着很大的困难,虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。这也间接导致了目前的统计机器翻译系统仍然主要处于实验室开发研究阶段,离实际的应用还有一定的距离。本文致力于...
摘 要
1. 研究了双语平行资源在互联网上的存在形式并探索了相应的获取方法
2. 提出了基于URL命名相似性的双语候选网页获取算法
3. 改进了双语平行句对抽取技术
目录 V
图目录 IX
表目录 X
第一章 引 言 11
1.1概述 11
1.1.1研究背景 11
1.1.2国内外研究现状分析 12
1.1.3现有系统介绍与比较 14
1.2主要研究目标和内容 16
1.2.1 研究目标 16
1.2.2 研究内容 17
1.3论文组织结构 17
第二章 基于WEB的双语平行语料库获取的总体架构 18
2.1 基本流程 18
2.2 任务分析与界定 19
2.2.1双语候选资源获取与预处理 19
2.2.2双语候选网页获取 20
2.2.3双语平行网页获取 20
2.2.4双语平行句对抽取 20
2.3 本章小结 21
第三章 双语候选资源获取与预处理 22
3.1研究现状 22
3.2网页间平行语料获取途径 22
3.3网页内部平行语料获取途径 23
3.3.1基本思想 23
3.3.2可行性评估实验 23
3.4 网页解析与去噪声 24
3.4.1网页内容解析 24
3.4.2去噪声处理 24
3.4.2网页语种识别与编码转换 25
3.5本章小结 25
第四章 双语网页URL命名模板的自动发现 26
4.1相关研究 26
4.2双语平行网页URL命名模板的抽象与定义方法 27
4.2双语平行网页URL命名模板的自动发现算法 29
4.3 获取具有 URL 命名相似性的双语候选网页算法 31
4.4实验与分析 32
4.4.1数据描述与实验设置 32
4.4.2实验结果 32
4.5本章小结 33
第五章 双语平行网页获取 34
5.1相关研究 34
5.2基于最大熵分类器的双语平行网页获取 35
5.2.1最大熵分类器 35
5.2.2特征抽取 36
5.2.3模型训练 38
5.3实验与分析 39
5.3.1数据描述与实验设置 39
5.3.2实验结果 39
5.4本章小结 39
第六章 双语平行句对抽取 40
6.1相关研究 40
6.2双语平行句对抽取模型 41
6.2.1模型基本思想 41
6.2.2生成双语候选句对集合 41
6.2.3特征抽取 42
6.2.4分类与后处理过程 44
6.3 实验与分析 44
6.3.1数据描述与实验设置 44
6.3.2实验结果 44
6.4本章小结 45
第七章 双语平行语料库自动获取平台(PPSM)系统实现 46
7.1 主要进程介绍 46
7.2 进程间的数据传递 47
7.3 系统性能介绍 47
7.4 系统成果 48
7.5 本章小结 48
第八章 总结 49
8.1总结 49
8.2下一步工作 50
附录一 网页间平行资源-锚文本列表 52
附录二 网页内部平行资源-锚文本列表 53
附录二 HTML特殊字符转换表 54
附录三 可处理的网页文件类型 55
参考文献 56
致 谢 59

关键词: 双语平行语料库,网页挖掘,双语平行句对,统计机器翻译
