分词类论文范文参考文献,与面向中文全文索引的中文分词策略相关毕业论文提纲
本论文是一篇分词类毕业论文提纲,关于面向中文全文索引的中文分词策略相关毕业论文提纲范文。免费优秀的关于分词及信息化及索引方面论文范文资料,适合分词论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
8220;之类”等.事实上,在实际应用的分词系统上,并不是单纯采用某类的算法,而是扬长避短综合地运用.下文所使用的基于词频统计的匹配分词算法,便是将第一与三类算法作综合,在执行效率与歧义处理之间取得较好的平衡点.
3基于词频统计的匹配中文分词
在进行全文索引时,利用中文分词技术,把中文文本切分成一个个长度较小的中文序列,接着把分词产生的中文序列及其位置等相关信息,生成倒排索引表(InvertedIndexTable)[8].倒排索引表的逻辑结构就像每一本书后的索引表一样,以关 键 词(即分词产生的中文序列)为索引表的关键字,页码(即中文序列的相关信息)为其查找内容.在进行查找时,同样要利用中文分词技术分析用户输入的内容,然后按照分析结果直接在倒排索引表查找相关内容.不论是前期的索引工作抑或是后期的搜索工作,中文分词的作用都是举足轻重的.尤其是前期索引的分词的好坏,直接影响后期搜索的准确率和召回率的高低.
无论是一元切分还是二元切分,它们都没有有效利用文本中的语义信息.单纯的机械切分虽然带来100%的召回率,但对于海量的信息,用户所关注的不是返回的检索的多寡,而是检索的质量.尤其是应用于互联网的搜索引擎,一个关键字至少可以带来几十万的查询结果,这时检索的准确率将优先于召回率作为首要考虑因素.而要提高检索的准确率,必然要引入此前所讲三大类的传统分词算法.
接下来的部分,我们将引入现今一个较成功的分词算法基于词频统计的匹配分词到全文索引项目Lucene中.前半部分将详述分词的原理,后半部分将描述移值至Lucene的相关细节.
3.1基于词频统计的匹配分词原理
利用已有的词典对字串进行完全匹配的粗分,生成含有所有可能的切分方案,然后构造一个反映所有切分方案的有向无环图.最后通过Dijkstra的最短路径算法求出概率最大的切分方案.
3.2模型求解步骤
模型定义:
字串C等于{C1C2C3等Cn},Ci为字串的第i个单字,字串C长度为n,n>等于1.模型目标:
生成切分可能性最大的分词串S等于{S1S2S3等Sm},其中Si为分词串第i个词.模型求解步骤:
1)粗分字串,产生所有可能的分词串方案,并构造相应的有向无环图
首先构造初步的有向无环图G
图1
接着,对图中的Vi(1<=i<=n),通过词典搜索以Vi开头的词,然后与以Vi开始的字串进行匹配.若Vi至Vj的字串匹配成功,则添加一条有向边
图2
2)利用Dijkstra的最短路径算法,选择最优划分
用数学语言精确地描述我们的模型目标,对于字串C等于{C1C2C3等Cn},切分成分词串S等于{S1S2S3等Sm},使到条件概率Prob(S|C)达到最大值.
其中Prob(S|C)等于Prob(S,C)÷Prob(C)等于Prob(S)×Prob(C|S)÷Prob(C)
我们知道,Prob(C)是一个定值;而对于某一个分词串S,其对应的字串C是一定的,所以Prob(C|S)恒为1.因此,要使Prob(S|C)取得最大值,必先令Prob(S)达最大值.假定对于分词串S,Si与Si+1(1<=i<=n)是相互独立的.
则Prob(S)等于Prob(S1,S2,S3...Sm)等于∏
按照如下规则给有向无环图的边赋于权值:
(1)若Si为数字串或英文串,赋权值0至边
(2)若Si为汉字串(串长为n),赋权值-logki+100至边
4基于词频统计匹配分词策略应用于全文索引项目Lucene
4.1Lucene简介
Lucene是一个开放源代码的Java全文索引引擎工具包.比起商业的笨重和昂贵的全文索引工具,它可以按照需要进行扩展和剪裁,方便的嵌入到各种应用中实现针对应用的全文索引/检索功能.Lucene起初是由著名搜索引擎Excite的架构师DougCutting在SourceFe作为开源项目.到2002年,Lucene1.2版正式作为ApacheSoftwareFoundation的子项目.
有关论文范文主题研究: | 关于分词的论文范文资料 | 大学生适用: | 自考论文、学术论文 |
---|---|---|---|
相关参考文献下载数量: | 17 | 写作解决问题: | 写作参考 |
毕业论文开题报告: | 标准论文格式、论文选题 | 职称论文适用: | 论文发表、职称评初级 |
所属大学生专业类别: | 写作参考 | 论文题目推荐度: | 经典题目 |
这篇论文网址:http://www.sxsky.net/benkelunwen/060374589.html
由于Lucene的卓越的架构所带来良好的扩展性,吸引了开源社区对其不断功能扩展,尤其是分词部分,迄今已经从原来单纯的英语切分,扩展到俄、德等多种语言.随着其功能续步完善,Lucene有越来越多应用案例.比如,Web论坛系统Jive的检索部分和开放开发平台Eclipse的帮助索引部分都嵌入Lucene作为其后台的全文索引.
4.2中文分词实现
本次实现所使用的带词频的词典来自于中科院的ICTCLAS分词系统[2],其格式说明参考至网上“计算所汉语词法分析系统ICTCLAS字典格式解析(字典格式说明)”[10],特次致谢.
由于Lucene各模块之间的关系是松耦合,因此对其扩展改动所涉及的面相当少.本次加入中文分词实现只涉及Lucene的.apache.lucene.analysis中与分析相关的package.
实现架构规划,如图3.
1).rickyzhang.lucene.省略
功能说明:包含一元切分、二元切分和基于词频统计匹配切分的Analyzer和Tokenzier实现.主要类图说明图4.
图4
说明:AbstractChineseAnalyzer所含的Chinese_STOP_WORDS包含高频的汉语虚词,如“但是”“因为”等,其目的是过滤(Filter)这些高频词条.
2).rickyzhang.lucene.util
功能说明:包含求最短路径的有向无环图的类SegmentGraph,词典类Dictionary,对文本进行初次切分Token的SimpleTokenizer和对外最终接口SentenceSegment.
图5
3).rickyzhang.lucene.test
功能说明:包含测试中使用的索引工具Indexer和检索工具Searcher.
5与二元切分和一元切分作比较
本次评测内容分为索引和检索两部分.所索引的对象内容范围广泛,包括:现代小说,人物传记,学术论文,哲学简史和文言文经典.此次共索引49个文件,总大小为6.12MB.5.1索引评测
对比数据如表1:
说明:测试机器AMDDuron1.6GHz,内存512MB
1)从索引速度看,基于词频统计匹配切分比一元切分和二元切分差一个数量级.
其原因可以从算法复杂度中推出,一元切分和二元切分的计算复杂度是O(N),而基于词频统计匹配切分是O(N2)(主要是在计算最短路径上Dijkstra算法上)
2)从索引所占空间看,二元切分所占的空间约为一元切分和基于词频统计匹配切分的两倍.
正如此前分析,由于二元切分所分出来的词条是以物理位置作为划分界限,比起基于词频统计匹配切分所分出的具语义的单词,它们重复的几率相对较低,故二元切分占索引空间相当大.而一元切分之所以是最省空间的,其原因就是常用高频汉字大概只有三千个左右,因此
分词类论文范文参考文献,与面向中文全文索引的中文分词策略相关毕业论文提纲参考文献资料: