关于计算机相关论文例文,与对义项设立是否贴切的一种检验方法相关论文网

时间:2020-07-05 作者:admin
后台-系统-系统设置-扩展变量-(内容页告位1-手机版)

本论文是一篇关于计算机相关论文网,关于对义项设立是否贴切的一种检验方法相关毕业论文格式范文。免费优秀的关于计算机及义项及语料方面论文范文资料,适合计算机论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

摘 要:文章根据词义标注的实践设计了一种检验词典义项设立是否贴切的方法,包括建立大规模平衡语料库,随机抽取一定规模语料作为检验库,对抽检语料做完全标注三个步骤.通过该检验方法能发现现有词典义项设立中存在的若干问题.

关 键 词:词典释义 检验 词义标注

一、词义标注对词典检验的启示

释义从一定意义上说是词典编纂的中心工作.一部词典的质量高低很大程度上决定于释义的质量(胡明扬1982).加之词义概括、多义词义项划分、释义几个过程都比较复杂,处置不当容易导致诸如“肢解词的完整理性意义”(邹酆2003)、“义项关系不当”(吴云芳,俞士汶2006)等问题.胡明扬等(1982)指出:“词义概括是否得当,义项划分是否合理等问题,其实是可以通过语料检验的方法来发现并加以改进的.”然而词典释义检验有多大必要性、检验方法应如何设计、通过检验可以解决哪些问题等,尚少细致的讨论.

我们在完成课题“基于国家语委‘通用语料库’之上的汉语义频词库的开发(SCT)”过程中发现,对词典释义的检验不仅必要,而且不能随意为之.课题的核心是计算机词义自动标注,也就是使计算机根据词典的义项设置,给使用中的多义词自动标注一个合适的义项.课题使用的词典是《现代汉语词典》(1996年修订版,以下简称《现汉》),目前已经完成了对3771个高频、双音节多义词的研究.作为课题的一个子项目,我们研制了“验证库”,即首先从大规模语料库中为每个多义词抽取一定量的句子形成语料库,然后由人模拟计算机标注一个义项,再由计算机自动标注义项,两相对照以检验计算机标注的正确率.在这个过程中发现部分句子难以标注,原因有多种:有的是仅凭句内上下文的确无法判断词义;有的是机用词典与普通语文词典的性质与功能不同所致;也有的表现为语文词典原有义项设置不合理.


这篇论文地址:http://www.sxsky.net/daxuebiyelunwen/05075805.html

在涉及词典义项设置的问题上,课题中对《现汉》调整有百余处,当然这些调整主要缘于机用义项库有着不同的性质与功能,调整的类型、原则、方法在《机用义项库在词义标注中的作用及其完善》一文中做了介绍(苏新春等2010),然而其中也不乏传统词典本身可做改进之处,从这个角度来说,我们认为词义标注正是实践了从词典释义回到言语实际的检验过程,对词义标注的结果及其困难进行深入分析就可以发现词典存在的不当之处.本文把词义标注相关课题中与语文词典释义相关的部分提取出来,设计了一种词典释义的封闭式检验方法,希望对一般词典编纂中义项的设立和释义有所帮助.下文就介绍这种检验方法的详细步骤,并举例分析课题中发现的词典释义不当之处.

二、检验方法——封闭式检验的三个步骤

封闭式检验旨在于一个封闭的语料库中,通过词义标注考察词典义项设置是否合理,重点考察一个“词形”所对应的意义的整体范围、义项关系、义项与语料的对应关系,进而分析词典中义项的概括模式、粒度是否与语料契合,个体义项是否恰当.有三个基本步骤:

(一)建立大规模平衡语料库

建立大规模平衡语料库作为基础语料库,要能覆盖一般语文词典的基本范围,语料构成要与词典的性质、定位相对应.我们的课题以现代汉语为研究对象,要求语料能反映现代汉语的基本状况.研制的平衡语料库有2亿多字,主要包括三个部分:(1)国家语委研制的“现代汉语语料库”;(2)部分人民日报语料(2001年后的若干月份);(3)文学作品及部分教材语料.


计算机学术论文怎么写
播放:36068次 评论:3693人

“‘国家语委现代汉语语料库’是一个大型的通用语料库.该语料库以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服

后台-系统-系统设置-扩展变量-(内容页告位2-手机版)
声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:123456789@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。
后台-系统-系统设置-扩展变量-(内容页告位3-手机版)