汉语分词在中文信息处理软件中应用.doc
约14页DOC格式手机打开展开
汉语分词在中文信息处理软件中应用,1.1万字 14页摘要 汉语言词语切分(以下简称分词)是汉语信息处理系统中重要的一个环节,它是将连续的缺乏词的分隔标志的生语料,自动切分出以词为单位的熟语料,也就是将字串分割成词串。本文阐述了汉语言词语分词技术面临的关键问题以及分词常用的基本算法,通过对分词技术在汉语信息处理软件中的应用...
内容介绍
此文档由会员 xiaowei 发布
汉语分词在中文信息处理软件中应用
1.1万字 14页
摘要
汉语言词语切分(以下简称分词)是汉语信息处理系统中重要的一个环节,它是将连续的缺乏词的分隔标志的生语料,自动切分出以词为单位的熟语料,也就是将字串分割成词串。本文阐述了汉语言词语分词技术面临的关键问题以及分词常用的基本算法,通过对分词技术在汉语信息处理软件中的应用举例,说明中文处理功能都要建立在对汉语文本的分词处理这一基本功能之上。因而,汉语分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用前景。
关键词 分词、词表
引言
中文信息处理是我国重要的计算机应用技术,在计算机产业中,是我国的专长。国务院制定的国家中长期科技发展纲领中明确提出“中文信息处理技术是高新技术发展的重点”。据统计,在信息领域中80%以上的信息是以语言文字为载体的。这些语言信息的自动输入和输出,文本的校堪和分类,信息的提取和检索以及语言翻译等语言工程,都是国民经济和国防信息化建设的重要基础。中文信息涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。由于词是最小能独立运用的语言单位1,因此,当前汉语信息处理以由“字处理”转移到“词处理”由于中文文本是按句子连写的,词间无间隙,因而在中文文本处理中首先遇到的是词的切分问题。按句连写转换为按词连写,词的正确切分是进行中文文本信息处理的必要条件。正如陈力为院士所说:“汉语书面语的分词技术已经悄悄地形成一门新兴的富有挑战性的学问。”
参考文献
[1]《汉语信息处理词汇01部分;基本术语(GB12200.1-90)》,中国标准出版社,1991
[2] 朱德熙《语法讲义》,商务印书馆,1982
1.1万字 14页
摘要
汉语言词语切分(以下简称分词)是汉语信息处理系统中重要的一个环节,它是将连续的缺乏词的分隔标志的生语料,自动切分出以词为单位的熟语料,也就是将字串分割成词串。本文阐述了汉语言词语分词技术面临的关键问题以及分词常用的基本算法,通过对分词技术在汉语信息处理软件中的应用举例,说明中文处理功能都要建立在对汉语文本的分词处理这一基本功能之上。因而,汉语分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用前景。
关键词 分词、词表
引言
中文信息处理是我国重要的计算机应用技术,在计算机产业中,是我国的专长。国务院制定的国家中长期科技发展纲领中明确提出“中文信息处理技术是高新技术发展的重点”。据统计,在信息领域中80%以上的信息是以语言文字为载体的。这些语言信息的自动输入和输出,文本的校堪和分类,信息的提取和检索以及语言翻译等语言工程,都是国民经济和国防信息化建设的重要基础。中文信息涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。由于词是最小能独立运用的语言单位1,因此,当前汉语信息处理以由“字处理”转移到“词处理”由于中文文本是按句子连写的,词间无间隙,因而在中文文本处理中首先遇到的是词的切分问题。按句连写转换为按词连写,词的正确切分是进行中文文本信息处理的必要条件。正如陈力为院士所说:“汉语书面语的分词技术已经悄悄地形成一门新兴的富有挑战性的学问。”
参考文献
[1]《汉语信息处理词汇01部分;基本术语(GB12200.1-90)》,中国标准出版社,1991
[2] 朱德熙《语法讲义》,商务印书馆,1982