当前位置 —论文—本科论文— 范文

分词类论文范文参考文献,与面向中文全文索引的中文分词策略相关毕业论文提纲

本论文是一篇分词类毕业论文提纲,关于面向中文全文索引的中文分词策略相关毕业论文提纲范文。免费优秀的关于分词及信息化及索引方面论文范文资料,适合分词论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

摘要：中文分词是中文信息化处理的基础环节.在中文全文索引中,中文分词更起着举足轻重的作用.该文首先比较了常见的中文分词算法,最后选用了综合性能较优的分词算法―基于词频统计的匹配分词,引入全文索引的开源项目Lucene中.通过与传统的机械分词对比,发现使用基于词频统计的匹配分词的全文索引,不但大大节省索引空间,而且显著地提高了检索的质量.

关键词：中文全文索引；中文分词；Lucene

中图分类号：TP391文献标识码：A文章编号：1009-3044(2012)03-0722-05

ChineseFull-textIndexfortheChineseWordSegmentationStrategy

XIChao-qiong

(GuangdongFoodandDrugSchool,Guangzhou510663,China)

Abstract:ChineseSegmentationisthebasicstepofChineseinformationprocessing.ItplaysanimportantroleespeciallyintheChinesefulltextindexing.ThispaperfirstmakesparisonbetweenalgorithmsofChinesesegmentation,andthenchoosesthemostsuitableone,whichisbasedonthestatisticalmodelofwordfrequency,toapplytotheopensourcefulltextindexingprojectLucene.ByparisonwiththetraditionalChinesesegmentationmethod,wefindthatthenewfulltextindexing,whichappliednewChinesesegmentationmethod,notonlysaveshugeamountofspaceofindexing,butalsoimprovesthequalityofsearchingsignificantly.

Keywords:ChineseFullTextIndexing,Chinesesegmentation,Lucene

1概述

相对于以字母为基本语言单位的拉丁语系而言,东亚语言（以中、日、韩CJK语言为代表）是以具有独立意义的单字作为最小的语言组织单位.两种语系都以最小语言组织单位通过相互排列和组合不断产生新的单词.但是东亚语言最大的特点,就是单词与单词之间没有明显分隔标记[1].试想假如英文文本把所有单词之间的空格都去掉,然后让计算机进行信息化处理,那么这一过程的首要一步就是把连续的单词串进行切分识别.同样对于天然没有明显标记作为词的分界的东亚语言来说,在对其进行信息化处理时,分词成为首要而且必不可少的步骤[2].

以汉语为例,中文分词具有广阔的应用前景.在文本校对、汉字的简体/繁体转换、自然语言理解、文本分类和机器翻译等中文信息处理系统都以分词作为其最基本的模块.本论文排版所使用MSWORD所提供的文本自动校对功能、简繁体转换功能和自动取词功能等,便是以分词作为系统的一个基本模块[3].校对系统运用分词模块对文本进行分词,然后运用词语之间搭配的合理性来识别可能的错误；简繁体转换功能,不但从字一级把如“学习”转成“”,而且还进行相应的习惯用词变换,如“硬件”转成“硬”,而后一级的用词转换是离不开分词模块；自动取词功能,让用户左键双击中文汉字时,其所组成的中文词语则被高亮选中,用户可以对选中的词语作进一步的编辑.这一功能同样是运用分词系统来实现的.

2中文分词算法

正如引言所述,传统上的中文分词算法分为三类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法.

第一类,基于字符串匹配的分词方法.

这种方法的原理,是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功（识别出一个词）[1].按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配.一般来说,由于中文单字成词的特点,最大匹配的效果远远高于最小匹配.据统计分析,逆向匹配的正确率高于正向匹配[5].

这种机械的划分的优点,就是实现简单.前期工作只要具备一个充分大的词条条目的机器词典；后期工作就是选择一个兼顾效率与准确率的分词策略――逆向最大匹配.当然,它的缺点也是显然易见的,对于歧义问题不能很好地处理.中文分词所遇见的歧义问题主要分为两大类[5]：（1）交集型歧义字段,据统计,这种歧义字段占全部歧义字段的85%以上[6].所以这也是分词系统所要重点解决的问题.在字段ABC中,这里,A,B,C分别代表有一个或多个汉字组成的字串.A,AB,BC,C分别都是词表中的词,则称该字段为交集型歧义字段.如：“研究生#命起源”,“研究#生命起源”两种切分结果.（2）组合型歧义在字段ABC中,A,B,AB分别都是词表中的词,则称该字段为交集型歧义字段.如“：学生#会#参加#献血”,“学生会#参加#献血”.

无论哪一种歧义,由于基于字符串匹配的分词没有利用上下文语境,只单纯从词的匹配角度进行机械的划分,因此其处理歧义的能力是相当弱,总体来说他的准确率在三大类中是较低的一种.

第二类,基于理解的分词方法.

从常识角度看,理解上下文的语义是分词正确且有效的途径.基于理解的分词方法其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象.然而正如前文所言,理解与分词有时是互为前提的,没有正确的分词难有正确的理解,没有正确的理解也不可能有正确的分词.这便陷入先有鸡还是先有蛋的逻辑矛盾[6].

在当今自然语言处理(NaturalLanguageProcessing)还有待发展的今天,这种分词方法还处于理论研究阶段,离真正实用还有一段好长的距离.

第三类,基于统计的分词方法.

基于字符串匹配的分词方法没有很好地利用句子中上下文所提供的语言背景知识.而基于理解的分词的立足点是要充分利用语义信息,但实现却相当困难.在这两者之间,人们找到一个平衡点―从统计角度处理语言背景所提供知识.

基于统计的分词方法,所统计的对象是多元的.最常见的是基于字与字之间的结合频率[7]来决定是否成词.这种方法的原理是在上下文中,如果相邻的字之间出现次数越多,那么它们是单词的概率就越高.用形式化的语言来描述是：

设字串C等于{C1C2C3C4C5},

假定划分成为两个词（即两个字串切分）S1等于{C1C2},S2等于{C3C4C5}

定义Prob(C)、Prob(S1)和Prob(S2),分别为C、S1和S2出现的概率.

则两切分之间的相互信息（MutualInformation）

假定两个不同的阈值γ1<γ2时,当MI(S1,S2)大于γ2时,我们相信S1与S2两者关系相当紧密,这样的切分是不适合的.当MI(S1,S2)小于γ1时,表示S1与S2两者关系独立,字串C可能含有两个或以上的词.当MI(S1,S2)介于γ1与γ2之间时,S1与S2两者是弱关联,这时需要重新估计划分的位置.

基于统计的分词的好处就是事先不需要大词条的词典,只需对字、词的频率进行统计.比起第一类的算法,它能有效地识别歧义和未登录词.但它也有局限性,首先算法&#