当前位置 —论文政治— 范文

关于词表方面论文范本,与跨语言主题词表自动构建技术相关论文发表

本论文是一篇关于词表方面论文发表,关于跨语言主题词表自动构建技术相关硕士学位毕业论文范文。免费优秀的关于词表及数据库及图书馆方面论文范文资料,适合词表论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

[摘 要]认为主题词表有利于信息的组织、信息的利用和信息的检索,传统的手工构建单语言主题词表的方法耗时且成本昂贵,难以满足用户对跨语言信息的处理和使用需求.目前在国内外,如何利用计算机技术,实现跨语言主题词表的自动构建功能是信息检索研究领域需要解决的一个关键问题.在对国内外研究现状进行分析的基础上,较为详细地阐述和分析跨语言主题词表自动构建技术的思想及其技术方法,并提出相关的研究建议.

[关 键 词]主题词表跨语言主题词表自动构建

[分类号]G252

1 引言

随着计算机网络技术的飞速发展,网络已经成为人们获取信息的重要途径,用户不仅可以从网上得到自己的母语信息,也可以得到其他语言的信息.应运而生的数字图书馆为不同语种的文献信息查询检索提供了便利,作为图书馆信息组织和检索的主要工具,跨语言主题词表自动构建技术研究是一个亟待解决并具有深远意义的研究课题.面对海量的、不同语言的文献资源,单语言主题词表已经无法满足图书馆工作人员对跨语言文献的处理需求.客观上需要跨语言主题词表来进行标引和检索;同样检索用户也需要应用跨语言主题词表来提高跨语言文献信息资源检索的效率和质量.在未来的网络环境下,服务于数字图书馆的跨语言主题词表将得到广泛的应用.


大学词表本科毕业论文怎么写
播放:30121次 评论:4983人

2研究现状

主题词表在国外发展一直很快,国外十分重视主题词表在网络环境中的研究与应用,其作用形式主要有三种:主题词表的浏览与查询,在检索数据库中使用主题词表,在搜索引擎中应用主题词表.其中,后两种应用以第一种应用为基础.国外对于单语言主题词表的构建工作已经由传统的人工构建转为由计算机技术参与的半自动或自动的构建过程,国外研究主题词表自动构建技术的代表人物HsinchunChen提出了概念空间方法,并先后完成了针对生物蠕虫领域的主题词表的自动构建和系统开发.对于跨语言主题词表的构建工作,国外的研究工作是在20世纪80年代展开的,并于1985年制定了跨语言主题词表建设所遵循的规范和标准.目前国外发达国家正在积极开展信息资源的开发、管理和有效利用的研究工作,跨语言主题词表的自动构建研究与应用工作已经展开.例如:欧盟组织目前非常重视成员国语言表达在概念层次上的一体化,以实现欧盟信息资源的共享和有效利用.欧洲共同体已经创建了用于跨语言检索的名为Eurovoc的主题词表(eurovocabularythesaurus),它可以支持欧盟22种官方语言.

我国国内对主题词表构建的研究较为滞后,目前已有的主题词表均是单语言主题词表,如《林业科学主题词表》、《汉语主题词表》等,这些主题词表均由领域专家参与手工完成,我们查阅了国内外的全文文献数据库:万方的中国学位论文全文数据库、中国会议论文全文数据库、万方和维普数字化期刊数据库;国家科技图书文献中心的西文期刊全文数据库、外文会议全文数据库、外文学位论文数据库和西文科技报告数据库,以及万方SpringLink数据库,采用输入相关关 键 词的文献检索方法,对1972年1月至2009年12月的相关文献进行调研,调研的数据统计结果表明:近30年来,国内外相关的研究文献数目是7189篇,其中国外研究文献数目是5380篇,国内研究文献数目是1809篇.从文献数量的分布上看,国内关于主题词表自动构建技术的研究文章仅占国外相关文献总数的1/5左右.其中有关自动构建技术的研究工作更多地侧重于理论研究和探讨,而对于在网络化、数字化时代下,如何实现跨语言主题词表自动构建及其应用的研究工作还未有涉及.其主要原因是:

主题词表使用范围局限于图书馆、情报人员之间使用,普通用户知之甚少.目前已有主题词多为印刷版,电子化速度缓慢,导致主题词表无法在网络上普及和使用.

图书情报研究与网络信息技术的研究未能完美结合,已有搜索引擎大多是计算机人员研制的,过于重视算法,只在时间复杂度和空间代价上考虑,而忽视了信息的组织方法.

主题词表自动标引的研究未获得突破性进展.汉语的特点使自动分词始终成为标引的瓶颈,无论是单机状态还是网络环境中这一问题都制约了跨语言主题词表的研究.

3跨语言主题词表自动构建技术的研究与分析

3.1 跨语言词表构建方法

跨语言主题词表的构建方法可以分为两类:一类是手工构建跨语言主题词表的方法;另一类是自动构建跨语言主题词表的方法.

手工构建跨语言主题词表的方法主要有三种:①重新构建跨语言主题词表:由制表专家人员制定构建规则,确定交换语言(它是其他语言主题词表主题词术语语义对应的媒介与规范处理的参照语言),收集和审定所需语言的主题同表主题词;②翻译现有的主题词表:可以对原有主题词表的主题词术语与结构进行修改,或者仅针对所要翻译语言的主题词术语进行翻译和审定;③合并现有的跨语言主题词表:将现有的同一学科领域的几种单语言主题词表进行合并,重点解决跨语言主题词表之间的主题词术语及词汇语义对应的问题.

手工构建跨语言主题词表的方法的主要缺点是缺乏现实适用性:手工编制主题词表由领域专家、文本描述、语言专家和信息检索专家来共同完成跨语言主题词表的构建,是一个耗时甚长、成本昂贵的过程,它无法解决制表专家们自身存在的“知识获取瓶颈”问题,不利于主题词表的及时更新与维护.此外,由于目前国内图书馆尚没有跨语言主题词表可以使用,采用的主题词表基本上仍是产生于纸质时代的、经手工构建得到的单语言主题词表,这种主题词表应用到网络化、数字化的环境,其自身存在的专业性、局限性和时效性使其难以在各类用户中使用和推广.因此对传统的单语言主题词表进行改造,并开展对跨语言主题词表构建技术的研究是必要的.


这篇论文来源:http://www.sxsky.net/zhengzhi/050916769.html

3.2跨语言主题词表自动构建技术的研究与分析

跨语言主题词表自动构建技术的研究内容主要包括两个方面:一是主题词

关于跨语言主题词表自动构建技术的硕士学位毕业论文范文
关于词表方面论文范本
表本身的自动构建技术的研究;二是跨语言主题词表词语自动对齐技术的研究.

3.2.1主题词表自动构建技术的研究目前已有的主题词表自动构建技术主要包括:利用人工智能技术的专家系统、利用共现分析和概念空间等技术方法来实现主题词表的自动构建.

人王智能技术的专家系统方法:该方法需要设计一系列的规则来分析用户的检索模式,例如:V.Guntzer等设计的TEGEN系统,就是一个基于知识的具有推理和学习功能的主题词表自动构造专家系统.它通过自动探测和分析词汇之间应用的布尔操作符类型和用户实施的提问扩展类型,再通过用户的相关反馈解决模糊性和不确定性.采用专家系统方法的缺点是:构建的主题词表需要大量的用户交互,而且系统库需要词表在使用中不断地积累和改进,此外专家系统的规则一经确定,维护不易,即专家系统的构建时间较长、工作量大.

共现分析的方法:共现分析是一种采用统计方法的自然语言处理技术,其在词汇的选取方法上通常采用三种方法:①通过词频选词;②通过计算区分值选词;③通过泊松分布取词.共现分析技术通过知识挖掘和知识发现等理论和方法,挖掘语料库中潜在的概念语义关系,这种方法常常能够探测到自由文本库中潜在的知识框架,这正是人工构建方法所不具备的能力.它用覆盖学科领域的文献库作为词表的来源,生成的词表是一种自然语言主题词表,具有比较良好的文献保障,但其缺点是此方法识别的词汇语义关联不十分准确.

利用概念空间的方法:概念空间方法的提出源于Belkin提出的信息检索模型ASK(AnomalousstatesofKnowledz.知识的异常状态)的思想.ASK思

1 2

关于词表方面论文范本,与跨语言主题词表自动构建技术相关论文发表参考文献资料:

初中政治论文怎么写

最新时事政治论文

政治改革论文

关于两会的政治论文

政治方面的论文

职业中学政治论文

高中政治课改论文

政治生活论文

大学生政治论文

初中政治小论文

跨语言主题词表自动构建技术WORD版本 下载地址