中文文本语料库研究.doc
约27页DOC格式手机打开展开
中文文本语料库研究,25页 1.8万字 论述详尽,推荐下载参考。摘要语料库语言学是当代计算机学语言学中经验主义论取得显著成效从而在计算机语言学领域占有一定的优势地位的新学科方向。语料库是自然语言处理领域的基础性资源,因此语料库建设和研究就成为计算机语言学的重要工作之一。本文是研究中文文本中语料库的建立与设计。我们采用手工...
内容介绍
此文档由会员 Facebook 发布
中文文本语料库研究
25页 1.8万字 论述详尽,推荐下载参考。
摘要
语料库语言学是当代计算机学语言学中经验主义论取得显著成效从而在计算机语言学领域占有一定的优势地位的新学科方向。语料库是自然语言处理领域的基础性资源,因此语料库建设和研究就成为计算机语言学的重要工作之一。本文是研究中文文本中语料库的建立与设计。我们采用手工或软件形式获得语料库,并用对语料库进行加工整理。
关键词:文本自动校对、语料库、索引。
Abstract
Corpus Linguistic, a successful empirical methodology, now is a prevailed newtrend in Computational Linguistic field. Corpus is fundamental resource for Natural Language Processing. So some theory and method in different with rational methodology is required that means the construction and research on corpus issue is the basic of Computational Linguistic. This paper attempts to research into corpus for Chinese text. We adopt the handicraf....
Abstract 1
Keywords: Chinese Proofreading, corpus, index. 1
1.2 语料库的发展历史 2
1.2.1 早期的语料库 2
1.2.2 乔姆斯基的转换生成语法时期 2
1.2.4 现代语料库与早期相比 2
1.3 语料库的基本特征 4
1.4 语料库的发展方向及前景 4
1.4.1 基础语料库的发展 4
1.4.2 语料标注的发展 4
1.5 计算机在语料库中的作用 5
1.6 语料库的研究内容 5
1.6.1 语料库的建设与编撰 5
1.6.2 语料库的加工和管理计数 5
1.6.3 语言研究中的语料库的使用 5
2.1 中文文本自动校对(The Chinese Proofreading) 6
2.2 语料库在中文文本自动校对中的重要作用 7
2.2.1 为何需要语料库? 7
2.2.2 基于语料库和统计进行校对 7
3.1 按出错来源分 8
3.1.2 识别错误 9
3.1.3 原稿错误 9
3.2 按预校对文本句子语法、语义来分 9
3.2.1 构词错误 9
3.2.2 句法错误 9
(1) 词性搭配错误: 9
(2) 关联词语搭配错误:如原稿出错 9
3.2.3 语义错误 9
4.1.1 建立针对性、专用性的语料 10
4.1.3 典型性 10
4.1.4 规模 10
4.2 语料库的设计 11
4.2.1 语料的来源 11
4.2.2 许可权 11
4.2.3 设计方案 12
4.2.4 维护 13
4.3 语料库建立的措施 13
4.3.1 纯文本原则 13
4.3.2 获取方式 13
4.3.3 对非文本的转换工作 14
4.4.1 合并后文本中存在的问题 15
4.4.2 编写整理软件 15
4.4.3 统计 18
5.1 文本索引 18
5.2 索引的意义 18
5.3.2 KWIC索引 20
5.3.4 词语范型(pattern)统计 21
5.3.6 主题词提取(key word list)与词图(plot) 21
5.4 可用资源与索引软件 21
第五章 毕业设计心得体会 23
部分参考文献
[4] 翁富良等 “计算语言学导论” 中国社会科学了版社 1998年9月 第1版。
[5] John Sinclair “Corpus Concordance Collocation” 上海外语教育出版社 1999。
[6] 张仰森、丁冰青 “中文文本自动校对技术现状及展望” 中文信息学报 1998第3期。
[7] 黄昌宁等 “语料库语言学” 中国计算机用户 1990.11。
[8] 张磊、周明、黄昌宁、潘海华 “中文文本自动校对” 语言文字应用 2001 第1期。
25页 1.8万字 论述详尽,推荐下载参考。
摘要
语料库语言学是当代计算机学语言学中经验主义论取得显著成效从而在计算机语言学领域占有一定的优势地位的新学科方向。语料库是自然语言处理领域的基础性资源,因此语料库建设和研究就成为计算机语言学的重要工作之一。本文是研究中文文本中语料库的建立与设计。我们采用手工或软件形式获得语料库,并用对语料库进行加工整理。
关键词:文本自动校对、语料库、索引。
Abstract
Corpus Linguistic, a successful empirical methodology, now is a prevailed newtrend in Computational Linguistic field. Corpus is fundamental resource for Natural Language Processing. So some theory and method in different with rational methodology is required that means the construction and research on corpus issue is the basic of Computational Linguistic. This paper attempts to research into corpus for Chinese text. We adopt the handicraf....
Abstract 1
Keywords: Chinese Proofreading, corpus, index. 1
1.2 语料库的发展历史 2
1.2.1 早期的语料库 2
1.2.2 乔姆斯基的转换生成语法时期 2
1.2.4 现代语料库与早期相比 2
1.3 语料库的基本特征 4
1.4 语料库的发展方向及前景 4
1.4.1 基础语料库的发展 4
1.4.2 语料标注的发展 4
1.5 计算机在语料库中的作用 5
1.6 语料库的研究内容 5
1.6.1 语料库的建设与编撰 5
1.6.2 语料库的加工和管理计数 5
1.6.3 语言研究中的语料库的使用 5
2.1 中文文本自动校对(The Chinese Proofreading) 6
2.2 语料库在中文文本自动校对中的重要作用 7
2.2.1 为何需要语料库? 7
2.2.2 基于语料库和统计进行校对 7
3.1 按出错来源分 8
3.1.2 识别错误 9
3.1.3 原稿错误 9
3.2 按预校对文本句子语法、语义来分 9
3.2.1 构词错误 9
3.2.2 句法错误 9
(1) 词性搭配错误: 9
(2) 关联词语搭配错误:如原稿出错 9
3.2.3 语义错误 9
4.1.1 建立针对性、专用性的语料 10
4.1.3 典型性 10
4.1.4 规模 10
4.2 语料库的设计 11
4.2.1 语料的来源 11
4.2.2 许可权 11
4.2.3 设计方案 12
4.2.4 维护 13
4.3 语料库建立的措施 13
4.3.1 纯文本原则 13
4.3.2 获取方式 13
4.3.3 对非文本的转换工作 14
4.4.1 合并后文本中存在的问题 15
4.4.2 编写整理软件 15
4.4.3 统计 18
5.1 文本索引 18
5.2 索引的意义 18
5.3.2 KWIC索引 20
5.3.4 词语范型(pattern)统计 21
5.3.6 主题词提取(key word list)与词图(plot) 21
5.4 可用资源与索引软件 21
第五章 毕业设计心得体会 23
部分参考文献
[4] 翁富良等 “计算语言学导论” 中国社会科学了版社 1998年9月 第1版。
[5] John Sinclair “Corpus Concordance Collocation” 上海外语教育出版社 1999。
[6] 张仰森、丁冰青 “中文文本自动校对技术现状及展望” 中文信息学报 1998第3期。
[7] 黄昌宁等 “语料库语言学” 中国计算机用户 1990.11。
[8] 张磊、周明、黄昌宁、潘海华 “中文文本自动校对” 语言文字应用 2001 第1期。