wps程序资源中多国文字一致性智能判定的研究与实现.rar
wps程序资源中多国文字一致性智能判定的研究与实现,wps程序资源中多国文字一致性智能判定的研究与实现2万字40页包括开题报告和任务书摘要本文针对wps多国语言版本的语言一致性测试中遇到的问题进行了研究,定义了多国语言一致性判定的概念,将多国语言的一致性分为三个级别:字符、词、语义。在这三个级别中,根据unicode编码规则结合各种语言独有的多字节字符集的编码规则实现了...
该文档为压缩文件,包含的文件列表如下:
内容介绍
原文档由会员 20023286 发布
WPS程序资源中多国文字一致性智能判定的研究与实现
2万字 40页
包括开题报告和任务书
摘 要
本文针对WPS多国语言版本的语言一致性测试中遇到的问题进行了研究,定义了多国语言一致性判定的概念,将多国语言的一致性分为三个级别:字符、词、语义。在这三个级别中,根据Unicode编码规则结合各种语言独有的多字节字符集的编码规则实现了字符级别一致性的判定;在字符一致性的基础上,利用分词技术将文本分词,然后通过查找词典的方法实现了词级别的一致性判定;在分词的基础上,建立一个N-Gram统计语言模型,将文本分词后与该模型进行匹配实现了语义级别的一致性判定。
最后,我们根据本文提出的方法实现了一个WPS的中、英文一致性判定的自动化工具。对于英文,本文采用了基于词典查找的拼写检查方法使一致性判定达到了词的级别;对于中文,本文采用统计语言模型进行一致性检查使一致性判定达到了语义级别。利用这个工具在WPS的三个项目中共找出了有效的英文错误33处、中文错误15处。试验结果证明了本文的方法是可行的,统计语言模型是能够应用到多国文字一致性判定中去的。
关键词:一致性判定,n-gram,统计语言模型,分词,多国文字
The research and realization that multilateral languages consistency
intelligence judgment for the WPS program Source
Abstract
The paper researches the problems in the multi-language conformance testing of WPS, and defines the consistency judgment that includes three levers: character, word, semantic. The rule of coding Unicode and the character set of the given language is used to realize the character lever. Then it segments the sentence to words, and compares the words with standard dictionary to realize the word lever. Thirdly the paper builds an N-gram language model segmentation-based, and use this model to realize the semantic lever.
Finally, we developed a tool for English and Chinese consistency judgment by the method in this paper in WPS. For English, there adopted the method of looking up dictionary based spelling to realize the word consistency in sentences. For Chinese, there used the Statistical language model, which could express the frequency of word pair, to realize the semantic consistency in sentences. Three projects of WPS are examined using this tool. As a result it finds 33 errors in English edition, 15 errors in Chinese edition. It proves that the method in this paper is feasible and the Statistical language model is useful in the multilateral languages consistency judgment.
Key Words:Consistency Judgment,N-Gram,Language Model, Participle,Multilateral Languages
目 录
1. 绪论 1
1.1 课题的背景及目的 1
1.2 国内外研究状况 1
1.3 课题研究方法 3
1.4 论文研究内容 3
2. 字符编码简介 5
2.1 从ASCII到Unicode 5
2.2 Unicode、UCS和UTF 6
2.3 中日韩统一表意文字 6
2.3.1. CJK的发展 6
2.3.2.字源分离原则 7
2.3.3. CJK编码区间 8
2.4 Unicode与GB2312在本文中的作用 8
3. 分词介绍及语言统计模型 10
3.1 中文分词简介 10
3.1.1 最大正向匹配法 11
3.1.2 逆向最大匹配法 12
3.1.3 最少切分法 12
3.1.4 双向匹配法 12
3.1.5 中文分词中的难题 13
3.2 统计语言模型 14
3.2.1 统计语言模型简史 14
3.2.2 统计语言模型的发展 14
3.2.3 建立一个简单的统计语言模型 15
3.3 N_Gram统计语言模型 16
3.3.1 N-Gram语言模型概述[2] 16
3.3.2 建立一个BiGram模型[6] 16
3.3.3 N-Gram的数据稀疏问题 18
3.3.4 N-Gram的数据平滑处理 18
4. WPS程序资源中多国语言一致性智能判定的实现 22
4.1 提取资源字符串 22
4.2 英文一致性判定的实现 23
4.2.1 英文字符一致性判定的实现 23
4.2.2 英文词、语法一致性的判定的实现 24
4.3 中文一致性判定的实现 27
4.3.1 中文字符一致性判定的实现 27
4.3.2 中文词、语法一致性的判定的实现 27
4.4 实验结果与分析 29
结论与展望 32
致 谢 34
参考文献 35
参考文献
[1] Dr.International(美).国际化软件开发(第2版)(M).机械工业出版社.
[2] 黄昌宁.中文信息处理的主流技术是什么(D).北京.清华大学自动控制系.
[3] 马金山,张宇,刘挺,李生等.利用三元模型及依存分析查找中文文本错误(J).中文信息学报.2001.15(3).
[4] 骆卫华,罗振声,龚小谨.中文文本自动校对的语义级查错研究(D).清华大学中文系.2002.6.
[5] 黄晓宏.汉语文本自动查错和确认纠错系统的研究(D).清华大学计算机系.1996.
[6] 张民,李生,赵铁军.大规模汉语语料库中任意的n-gram统计算法及知识获取方法(D).1997.
[7] 常宝宝.N-gram和数据平滑(C).北京大学计算语言学研究所.
[8] 李江波,周强,陈祖舜.汉语词典快速查询算法研究(D).清华大学智能技术与国家重点实验室.
2万字 40页
包括开题报告和任务书
摘 要
本文针对WPS多国语言版本的语言一致性测试中遇到的问题进行了研究,定义了多国语言一致性判定的概念,将多国语言的一致性分为三个级别:字符、词、语义。在这三个级别中,根据Unicode编码规则结合各种语言独有的多字节字符集的编码规则实现了字符级别一致性的判定;在字符一致性的基础上,利用分词技术将文本分词,然后通过查找词典的方法实现了词级别的一致性判定;在分词的基础上,建立一个N-Gram统计语言模型,将文本分词后与该模型进行匹配实现了语义级别的一致性判定。
最后,我们根据本文提出的方法实现了一个WPS的中、英文一致性判定的自动化工具。对于英文,本文采用了基于词典查找的拼写检查方法使一致性判定达到了词的级别;对于中文,本文采用统计语言模型进行一致性检查使一致性判定达到了语义级别。利用这个工具在WPS的三个项目中共找出了有效的英文错误33处、中文错误15处。试验结果证明了本文的方法是可行的,统计语言模型是能够应用到多国文字一致性判定中去的。
关键词:一致性判定,n-gram,统计语言模型,分词,多国文字
The research and realization that multilateral languages consistency
intelligence judgment for the WPS program Source
Abstract
The paper researches the problems in the multi-language conformance testing of WPS, and defines the consistency judgment that includes three levers: character, word, semantic. The rule of coding Unicode and the character set of the given language is used to realize the character lever. Then it segments the sentence to words, and compares the words with standard dictionary to realize the word lever. Thirdly the paper builds an N-gram language model segmentation-based, and use this model to realize the semantic lever.
Finally, we developed a tool for English and Chinese consistency judgment by the method in this paper in WPS. For English, there adopted the method of looking up dictionary based spelling to realize the word consistency in sentences. For Chinese, there used the Statistical language model, which could express the frequency of word pair, to realize the semantic consistency in sentences. Three projects of WPS are examined using this tool. As a result it finds 33 errors in English edition, 15 errors in Chinese edition. It proves that the method in this paper is feasible and the Statistical language model is useful in the multilateral languages consistency judgment.
Key Words:Consistency Judgment,N-Gram,Language Model, Participle,Multilateral Languages
目 录
1. 绪论 1
1.1 课题的背景及目的 1
1.2 国内外研究状况 1
1.3 课题研究方法 3
1.4 论文研究内容 3
2. 字符编码简介 5
2.1 从ASCII到Unicode 5
2.2 Unicode、UCS和UTF 6
2.3 中日韩统一表意文字 6
2.3.1. CJK的发展 6
2.3.2.字源分离原则 7
2.3.3. CJK编码区间 8
2.4 Unicode与GB2312在本文中的作用 8
3. 分词介绍及语言统计模型 10
3.1 中文分词简介 10
3.1.1 最大正向匹配法 11
3.1.2 逆向最大匹配法 12
3.1.3 最少切分法 12
3.1.4 双向匹配法 12
3.1.5 中文分词中的难题 13
3.2 统计语言模型 14
3.2.1 统计语言模型简史 14
3.2.2 统计语言模型的发展 14
3.2.3 建立一个简单的统计语言模型 15
3.3 N_Gram统计语言模型 16
3.3.1 N-Gram语言模型概述[2] 16
3.3.2 建立一个BiGram模型[6] 16
3.3.3 N-Gram的数据稀疏问题 18
3.3.4 N-Gram的数据平滑处理 18
4. WPS程序资源中多国语言一致性智能判定的实现 22
4.1 提取资源字符串 22
4.2 英文一致性判定的实现 23
4.2.1 英文字符一致性判定的实现 23
4.2.2 英文词、语法一致性的判定的实现 24
4.3 中文一致性判定的实现 27
4.3.1 中文字符一致性判定的实现 27
4.3.2 中文词、语法一致性的判定的实现 27
4.4 实验结果与分析 29
结论与展望 32
致 谢 34
参考文献 35
参考文献
[1] Dr.International(美).国际化软件开发(第2版)(M).机械工业出版社.
[2] 黄昌宁.中文信息处理的主流技术是什么(D).北京.清华大学自动控制系.
[3] 马金山,张宇,刘挺,李生等.利用三元模型及依存分析查找中文文本错误(J).中文信息学报.2001.15(3).
[4] 骆卫华,罗振声,龚小谨.中文文本自动校对的语义级查错研究(D).清华大学中文系.2002.6.
[5] 黄晓宏.汉语文本自动查错和确认纠错系统的研究(D).清华大学计算机系.1996.
[6] 张民,李生,赵铁军.大规模汉语语料库中任意的n-gram统计算法及知识获取方法(D).1997.
[7] 常宝宝.N-gram和数据平滑(C).北京大学计算语言学研究所.
[8] 李江波,周强,陈祖舜.汉语词典快速查询算法研究(D).清华大学智能技术与国家重点实验室.