当前位置 —论文政治— 范文

关于词表方面论文范本,与跨语言主题词表自动构建技术相关论文发表

本论文是一篇关于词表方面论文发表,关于跨语言主题词表自动构建技术相关硕士学位毕业论文范文。免费优秀的关于词表及数据库及图书馆方面论文范文资料,适合词表论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

想认为:信息的需求源于用户对关注知识的一种“异常”状态,用户往往不能够准确地表达自己的需求,因而对于信息检索系统来说应该帮助用户分析这种“异常”的状态,正确地定位用户的需求.此方法将检索者的状态表达成一个由词汇和其关联关系构成的网络结构,这种网络结构的优点在于有利于识别知识状态的不规则性,更注重人类的认知需求,但此方法在技术的实现上还不成熟,其效果有待于进一步的研究.

3.2.2跨语言主题词表词语自动对齐技术的研究跨语言主题词表自动构建技术的核心问题是需要解决隶属于不同语系的汉语和印欧语系语言之间的一对多、多对一或多对多的主题词词语之间的关系.不同语言词语之间的词对齐算法是构建过程中的一个重要的技术手段.目前已有的词对齐方法有以下三种:

基于词典的词对齐方法:该方法利用双语词典和词仁信息来对齐句子,文献[11]根据词汇翻译模型进行了英法双语句子的对齐,对于汉英语言来说,经过对齐的汉英的句子,还要经过进一步的分词和词性标注、编码转换的处理等过程,由于中文处理的复杂性,文献[12]采用基于锚点词的双语词对齐方法,单纯的词典方法不适合大规模的语料处理,此方法受词典的容量和领域的限制较大.在词典规模较小的情况下,两种语言词语之间的正确匹配率较低,同义词间的替换不易处理,而且难于处理未登陆词.

基于Nit的IBM模型词对齐方法:IBM模型是目前实现词对齐的主流方法之一,在统计机器翻译中,根据贝叶斯公式可推导得到Nit机器翻译的基本方程式:

T等于argmaxP(T)P(S1T) (1)

其中P(T)是目标语言的文本T出现的概率.称为语言模型.P(SIT)是由目标语言文本T翻译成源语言S的概率,称为翻译模型.语言模型只与目标语言相关,与源语言无关,反映的是一个句子在目标语言中出现的可能性,实际上就是该句子在句法语义等方面的合理程度;翻译模型与源语言和目标语言都有关系,反映的是两个句子互为翻译的可能性.

其他词对齐的研究方法:非汉藏语系的语言多数可以满足一对一的翻译假设,但对于汉语与非汉藏语系语言的翻译,多数的词汇之间是多对一或者多对多的对应关系,此外由于汉语文本中的词与词之间没有自然间隔,所以首先要进行分词处理.对应关系的多元性和分词处理造成的错误使汉英翻译的准确性难以得到保证.国内很多研究学者针对这一汉语文化带来的问题进行了研究,例如:文献[13]提出了一种从英汉平行语料库中自动抽取术语词典的算法,实验语料是计算机手册,计算机术语的专业性和一致性适合文中提出的统计算法.如果采用集合运算来优化词对齐的方法,则会依赖于语料库的质量,如果采用多策略融合的方法,则难以解决各种策略产生的集合关系相容性不好的情况.

4跨语言主题词表自动构建技术的建议

目前国外针对跨语言主题词表自动构建技术的研究尚处于起步阶段,国内研究则处于空白,国外已有的关于主题词表自动构建的技术和方法均是针对西方语言提出的,由于中西文语言隶属于不同语系,它们之间的语法结构和语义信息都不尽相同,因此不能完全复制国外已有的主题词表自动构建技术,借鉴上述国外已有的研究工作,我们认为:跨语言主题词表自动构建技术应重点关注以下问题:

4.1文档的预处理

跨语言主题词表自动构建技术参考属性评定
有关论文范文主题研究: 关于词表的论文范文集 大学生适用: 电大毕业论文、研究生论文
相关参考文献下载数量: 38 写作解决问题: 学术论文怎么写
毕业论文开题报告: 论文提纲、论文结论 职称论文适用: 核心期刊、职称评初级
所属大学生专业类别: 学术论文怎么写 论文题目推荐度: 优秀选题

由于同一个词汇在不同的专业领域、不同的学科往往会有不同的含义,因此选择能够代表特定领域的、大规模的和相对完整的文档集合作为自动构建主题词表的术语及词汇来源是很重要的.从理论上讲,训练文档中包含的文献量越多,构建的质量就越高.训练文档包含的文献可以源于已有的文献数据库,由于网页文件是新词汇和新术语的重要来源,因此对相关学科领域的最新网页文件的收集和处理是必要的.对于数据库的文献、网页文件和未经归类的文献均需进行格式的转换和文档的归类处理,并建成相应的文本数据库.同时需要对文本的内容做一定程度的句法分析技术处理,例如:标识名词和动词,对概念进行初步的识别等预处理工作.

4.2文本的聚类和术语的抽取

在文本的预处理阶段实现的只是初步的文本分类以及术语词性和概念的识别.为了实现最终主题词术语的抽取和词汇间语义关系的建立,对文本做进一步的细化和聚类是必要的.例如可以用文章的标题和关 键 词作为文本聚类的依据,实现文本聚类的进一步处理,以缩小和改善后续的术语提取的规模和质量.对于术语的抽取,可以选取文章的标题、摘 要和正文作为自动构建主题词表术语的自然语言词汇来源,其中包括名词、动词.在文档预处理阶段完成的句法分析基础上,结合已有的专业词典、过滤词汇:①过滤文本中不充当意义的词汇;②过滤高频、但无实际意义的词汇以及低频词汇;③充分考虑短语、先组词的问题,最终产生一个比较有意义的关 键 词集合,在这一集合中,既有规范的主题词术语,也有表达主题词术语结构关系的相关词汇.

4.3跨语言主题词词语自动对齐技术

对于已有的、相对规范的跨语言主题同表,我们可以通过计算机程序和算法实现对其电子版文件的自动格式转换和主题词提取,并结合现有的词典资源,以及借鉴已有的词对齐算法来实现主题词的初步自动对齐和自动映射.但对于词语自动对齐关系的建立,既要以现有同一领域的跨语言主题词表作为跨语言平行语料,也需要建立大规模的跨语言可比语料及平行语料,作为跨语言主题词表主题词术语及词汇的词典后台支持,同时结合自然语言处理的句法分析技术来支持跨语言主题词表主题词术语及词汇之间自动对齐关系在算法上的实现.

5结论

作为图书馆学及情报学信息组织和检索的主要工具,跨语言主题词表自动构建技术研究是一个具有现实意义的研究课题,我们将为此开展更加深入的研究和开发工作.如何自动精确地探测汉语词汇之间的等同关系、等级关系和相关关系,以及如何自动识别和获取跨语言主题词及语义映射关系等问题将是我们的工作重点.

参考文献:

[1]SeanB,CaroleG.Thesamx~sconstructionthroughknowledgerepre-sentation.Data&KnowledgeEngineering,2001,37(I):25-45.

1 2

关于词表方面论文范本,与跨语言主题词表自动构建技术相关论文发表参考文献资料:

初中政治论文怎么写

最新时事政治论文

政治改革论文

关于两会的政治论文

政治方面的论文

职业中学政治论文

高中政治课改论文

政治生活论文

大学生政治论文

初中政治小论文

跨语言主题词表自动构建技术(2)WORD版本 下载地址