当前位置 —论文本科论文— 范文

关于词语类论文范文数据库,与汉语词语相似度计算方法相关论文查重

本论文是一篇关于词语类论文查重,关于汉语词语相似度计算方法相关开题报告范文。免费优秀的关于词语及语义及概念方面论文范文资料,适合词语论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

m3(S1,S2)、Sim4(S1,S2).

由此,两个概念之间的相似度计算公式如下:

其中,βi(1≤i≤4)是可以调节的参数,代表每一部分的权重,且有β1+β2+β3+β4等于1,β1≥β2≥β3≥β4.后者体现了Sim1到Sim4,对于最终的概念相似度Sim(S1,S2)所起作用是递减的.由于第一独立义原描述式Sim1,可以反映一个概念的最主要特征,所以本文将它的权值定义得比较大,一般应大于0.5.

最后,把上述四个相似度计算结果进行加权求和,便可以得到两个概念之间的相似度.假如有两个词语分别为W1和W2,其中W1含有n个概念,分别为:S11,S12,等,S1n,W2则含有m个概念,分别为S21,S22,等,S2m.那么计算词语W1和W2相似度的公式如下.

4.小结

文中对词语相似度计算的两种主要方法即基于语料统计的方法和基于语义词典的方法进行了介绍.两者各有其优缺点.

基于大规模语料库的计算方法,能够客观地反映词语的形态、句法、语义和语用等特点,可以发现许多仅靠人无法观测到的字符串间的有效关联.能够相对精确、有效地度量词语间的语义相似度.但是这种方法比较依赖于语料库,方法复杂同时计算量大.另外,它受数据稀疏和数据噪声的干扰比较大,有时会出现明显的错误.

基于语义词典的方法比较直观而且简单有效,可以计算出字面上不相似,并且统计关联较小的词汇间的相似度,然而它对语义词典的依赖性较强,构造汉语语义词典本身又是一项非常复杂的工作,所以该方法受人的主观影响比较大.有时不能准确的反映客观事实.另外这种方法对于词语之间语义方面的异同计算比较准确,但是在词语间的句法特点和语用特点方面,考虑有所欠缺.

前已述及,词语相似度计算在自动问答、智能检索、文本聚类、机器翻译等领域有着广泛的应用,那么到底选择哪种计算方法,需考虑每种方法的特点,并结合具体应用环境而定.

1 2

关于词语类论文范文数据库,与汉语词语相似度计算方法相关论文查重参考文献资料:

函授本科难吗

俄语本科论文

本科毕业论文致谢范文

本科数学系毕业论文

广告学本科

成人自考本科多少钱

函授本科数学论文

南京大学自考本科毕业论文格式

本科生发表sci论文

全国自考本科

汉语词语相似度计算方法(2)WORD版本 下载地址