中文校对系统的词语切分处理.doc
约15页DOC格式手机打开展开
中文校对系统的词语切分处理,1.1万字15页摘要中文信息处理技术是高新技术发展的重点,中文校对系统是中文信息处理的重要的一个分支,词语切分是中文校对系统的基础。本文简要介绍了中文自动分词的相关理论,并就中文自动校对系统中的词语切分介绍了一般性词表分词法和hash词表分词法。关键词:中文信息处理、中文校对系统、词语切分、一...
内容介绍
此文档由会员 200306 发布
中文校对系统的词语切分处理
1.1万字 15页
摘要
中文信息处理技术是高新技术发展的重点,中文校对系统是中文信息处理的重要的一个分支,词语切分是中文校对系统的基础。本文简要介绍了中文自动分词的相关理论,并就中文自动校对系统中的词语切分介绍了一般性词表分词法和HASH词表分词法。
关键词:中文信息处理、中文校对系统、词语切分、一般性词表、HASH词表
ABSTRCT
Chinese Info Manage Technique is the keystone of the development of new technique. Chinese Auto Collecting System is an important offset of Chinese Info Manage. Word segmentation is the basic of Chinese Collecting System. The document is about some interfix theories of Chinese Auto Word Segmentation, and recommend Universality Word List word segmentation and HASH Word List word segmentation in word segmentation of Chinese Auto Collecting System.
Keywords Chinese Info Manage; Chinese Auto Collecting System; Word segmentation; Universality Word List; HASH Word List
引言
中文信息处理是我国重要的计算机应用技术,在计算机产业中,是我国的专长。国务院制定的国家中长期科技发展纲领中明确提出“中文信息处理技术是高新技术发展的重点”。据统计,在信息领域中80%以上的信息是以语言文字为载体的。这些语言信息的自动输入和输出,文本的校勘和分类,信息的提取和检索以及语言翻译等语言工程,都是国民经济和国防信息化建设的重要基础。中文信息涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。由于词是最小能独立运用的语言单位,因此,当前汉语信息处理以由“字处理”转移到“词处理”由于中文文本是按句子连写的,词间无间隙,因而在中文文本处理中首先遇到的是词的切分问题。词的正确切分是进行中文文本信息处理的基础。正如陈力为院士所说:“汉语书面语的分词技术已经悄悄地形成一门新兴的富有挑战性的学问。”
1.1万字 15页
摘要
中文信息处理技术是高新技术发展的重点,中文校对系统是中文信息处理的重要的一个分支,词语切分是中文校对系统的基础。本文简要介绍了中文自动分词的相关理论,并就中文自动校对系统中的词语切分介绍了一般性词表分词法和HASH词表分词法。
关键词:中文信息处理、中文校对系统、词语切分、一般性词表、HASH词表
ABSTRCT
Chinese Info Manage Technique is the keystone of the development of new technique. Chinese Auto Collecting System is an important offset of Chinese Info Manage. Word segmentation is the basic of Chinese Collecting System. The document is about some interfix theories of Chinese Auto Word Segmentation, and recommend Universality Word List word segmentation and HASH Word List word segmentation in word segmentation of Chinese Auto Collecting System.
Keywords Chinese Info Manage; Chinese Auto Collecting System; Word segmentation; Universality Word List; HASH Word List
引言
中文信息处理是我国重要的计算机应用技术,在计算机产业中,是我国的专长。国务院制定的国家中长期科技发展纲领中明确提出“中文信息处理技术是高新技术发展的重点”。据统计,在信息领域中80%以上的信息是以语言文字为载体的。这些语言信息的自动输入和输出,文本的校勘和分类,信息的提取和检索以及语言翻译等语言工程,都是国民经济和国防信息化建设的重要基础。中文信息涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。由于词是最小能独立运用的语言单位,因此,当前汉语信息处理以由“字处理”转移到“词处理”由于中文文本是按句子连写的,词间无间隙,因而在中文文本处理中首先遇到的是词的切分问题。词的正确切分是进行中文文本信息处理的基础。正如陈力为院士所说:“汉语书面语的分词技术已经悄悄地形成一门新兴的富有挑战性的学问。”