当前位置 —论文本科论文— 范文

分词类论文范文参考文献,与面向中文全文索引的中文分词策略相关毕业论文提纲

本论文是一篇分词类毕业论文提纲,关于面向中文全文索引的中文分词策略相关毕业论文提纲范文。免费优秀的关于分词及信息化及索引方面论文范文资料,适合分词论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

在所有切分中,其倒排索引表所含的表项是最少.

5.2检索评测

传统上检索评测分为三部分:召回率、准确率和检索时间.

召回率是指检索出的相关内容和索引中所有的相关内容的比率.

准确率是检索出的相关内容和检索出的内容的比率.

定义所述的“相关内容”是一个相对概念,这与检索者的主观意向有密切的关联.

然而对于何一个检索系统来讲,召回率和准确率是不可能两全其美:召回率高时,准确率低;反之,准确率高时,召回率低.

本次,评测以抽查的方式列举了10个不同的关键字作为检索对象,分别用三种不同的切分方法所生成的索引进行检索.(由于Lucene检索时使用的是相同算法,而且关键字长度较短,用不同切分方法对关键字进行分析所花费时间可忽略,故检索时间不作为评测部分.)对比数据如表2:

表2检索评测对比数据说明:测试机器AMDDuron1.6GHz,内存512MB

1)以语义作为切分的检索的准确率高

很明显“理解越深,越准确”,单纯的机械切分严重割裂了文本的语义.比如,以“华人”作为关键字,一元切分和二元切分都把含有“中华人民共和国”的文本作为检索结果.


如何写分词论文
播放:32531次 评论:4346人

2)切分的准确性真接影响召回率

由于基于词频统计匹配切分对于未登录词的切分相对较弱,因此对于某些地名、人名等专有名词的检索效果远差于一元和二元切分.这是造成基于词频统计匹配切分的召回率低于机械切分的主要原因.

6结论

中文分词技术对全文索引起着举足轻重的影响.不论是前期索引的时空效率,抑或是后期检索的质量,都与中文分词工作有密不可分的关系.通过本次探索,应用基于词频统计匹配切分的全文索引的质量明显优于应用传统的一元和二元切分技术的全文索引.前者不但节省索引空间,而且带来更高的检索质量.

然而基于词频统计匹配切分还有提高的空间.鉴于大部分的检索关键字为专有名词,而基于词频统计匹配切分的全文索引在这方面略差于传统的机械切分,因此在后续工作有必要对专有名词如人名、地名等进行专门优化切分,以此提高其检索的召回率.

参考文献:

[1]孙宾.现代汉语文本的词语切分技术[Z].北京大学计算语言学研究所.

[2]计算所汉语词法分析系统ICTCLAS[DB/OL].mtgroup.ict.省略/~zhp/ICTCLAS/.中国科学院计算研究所.

[3]张华平,刘群.基于N-最短路径方法的中文词语粗分模型[Z].中国科学院计算技术研究所软件实验室.

[4]李东,张湘辉.汉语分词在中文软件中的广泛应用[Z].微软中国研究开发中心.

[5]梁南元.书面汉语自动分词系统-CDWS[J].中文信息学报,1987(2).

[6]PengFuchun,DaleSchuurmans.Self-SupervisedChineseWordSegmentation[D].DepartmentofComputerScienceUniversityofWaterloo.

[7]钱揖丽,郑家恒.文本切分知识获取及其应用[J].计算机工程与应用,2003(2).

1 2 3

分词类论文范文参考文献,与面向中文全文索引的中文分词策略相关毕业论文提纲参考文献资料:

本科生论文目录格式

函授本科毕业论文价格

自考本科资料

自考本科程序

本科生数学论文

汉语言本科自考

自考本科难度

对外汉语本科论文

本科论文要求多少字

吉林大学自考本科招生

面向中文全文索引的中文分词策略(3)WORD版本 下载地址