当前位置 —论文政治— 范文

生物医学方面论文范本,与生物医学关联数据进展与比较相关论文开题报告

本论文是一篇生物医学方面论文开题报告,关于生物医学关联数据进展与比较相关毕业论文提纲范文。免费优秀的关于生物医学及数据库及数据方面论文范文资料,适合生物医学论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

[摘 要]首先介绍当前生物医学领域在数据资源集成与共享方面的发展需求,认为当前语义Web的主要技术之一――关联数据为生物医学发展带来重要的机遇,然后对生物医学领域关联数据基础研究、建设以及应用研究情况进行详细分析,进一步对典型生物医学关联数据进行具体特性方面的比较分析,指出当前发展面临的困难和问题,并提出今后发展的方向.

[关 键 词]语义Web 关联数据 生物医学 映射 比较分析

[分类号]G250

1 背景

近年来,随着生物医学的不断演进和人类对该领域的不断探索,生物医学领域积累了大量的数据、信息和知识,这些知识内容可能存储于相同组织的相同数据源,也可能存储在不同组织的异构数据源中,如分布在科学文献、Web页面、专利、电子病例、各种同构或异构数据库等不同形式的载体中,其数据类型丰富多样,数据规模庞大,分布也十分广泛.大多数情况下,它们的存储地点以及存储方式都是不同的,但它们之间很可能存在着关联,例如:EntrezGene上的某个基因可能与CMIM上的某个疾病存在关联.与此同时,为了支持研究实验和科学决策,生物医学研究者们需要便捷地获取尽可能完备的相关数据.然而,由于许多数据分散存储在相对独立的模式下,导致了在异构环境下,研究者们难以发现和正确使用他们感兴趣的信息.“跨库”或者“跨平台”的一站式访问过程还未达到一种理想的自动化集成效果,因此,迫切需要有一种方法可以集成这些来自多方的数据和资源.

为了实现这一目标,人们对生物医学数据共享领域进行了多年研究和实践尝试,试图将基因、蛋白质、通路、疾病和化合物等数据有效地集成并且提供给研究者们随时获取.然而,相关的研究面临诸多困难,如数据拥有不同的识别框架、不一致的术语表达,多种不同的数据格式和下层数据存储模型设计困难等.随着语义Web技术的发展,生物医学领域的研究者和研究机构开始探索语义Web技术在此方面的可行性,关联数据(linkeddata)成为近年来的一种重要实践方法.关联数据致力于将这些不同的数据关联起来,连接大量的知识内容中蕴含着知识节点间的联系,并通过Web发布共享.通过关联数据集成大规模的生物医学数据有助于资源的集成与共享,同时关联数据创建的知识内容之间的语义关联也有助于人们对其进行深入的分析和探索.

2 关联数据及其对生物医学发展的意义

继多年的语义Web研究探索之后,近年来,关联数据被认为是一系列利用Web在不同数据源之间创建语义关联、集成、共享、互联,发布数据、信息和知识的最佳实践方法.鉴于生物医学知识内容的相对完整性、规范性和关联性,以及生物医学研究和发展过程中对多角度知识关联构建的迫切需求,生物医学领域成为目前语义Web技术应用规模最大、关联数据技术探索最为活跃的领域之一.

2.1 关联数据的目的、定义和原则

关联数据最早是在2007年5月,由ChrisBizer和RichardCyganiak向W3cSWEO提交的一个项目申请(LinkingOpenData项目)①中提出来的,其宗旨在于号召人们将现有数据发布成关联数据,并将不同数据源互联起来,目的是构建一张计算机能理解的语义数据网络,而不仅仅是人能理解的文档网络,以便于在此之上构建更智能的应用.相比现在的文档网络,语义数据网络提供的关联不但更加丰富,而且具有语义.在用关联数据创建的语义数据网络上,使用者可以自由地从一个数据集跳转到其他数据集,快速地获取他们感兴趣的信息.

关联数据是万维网的发明人TimBerners-Lee提出的一种万维网上发布数据的方式,可以看成语义Web的一种实现方式.它一般要求采用RDF数据模型,利用URI(统一资源标识符)命名数据实体,发布和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据.可见,关联数据的基本原则是采用RDF数据模型将结构化的数据发布到Web上,并采用RDF链接将不同的数据源内部关联起来.具体在实践中,Berners-Lee指出关联数据有4个原则必须遵守:①使用URI作为任何事物的标识名称;②使用HTTPURI使任何人都可以访问这些标识名称;③当有人访问某个标识名称时,提供有用的信息;④尽可能提供相关的URI,以使人们可以发现更多的事物.

2.2 关联数据为生物医学发展带来的机遇

2.2.1 为生物医学资源整合提供新的途径 当前生物医学领域已有大量的数据库可供使用,如美国的Pubmed、Genbank、PIR、SWISS2PORT、PDB和美国NCBI的EntreySequences,欧洲的EMBL,日本的DDBJ等.除这些大型数据库以外,还有相对较小的专门性数据库,如GenProEc.从大量的数据库来看,生物医学领域资源整合的巨大规模及复杂程度是可以预见的.在当前生物医学信息资源整合的过程中,存在大量的困难和障碍,如不同的系统获取资源的途径不同,资源格式也不尽相同,各系统分别采用不同的术语规范和不同的搜索策略,返回不同的结果形式等,这些均构成了当前异构生物医学信息资源系统整合的困难.关联数据为生物医学信息资源的整合提供了一种可行的途径.关联数据通常采用RDF语言进行描述,RDF描述的数据模型可以有效地支持不同来源数据、信息和概念的集成,例如将文献、蛋白质、疾病、人或机构进行描述和关联.关联数据为这一构想提供了实现的方案,即通过关联数据将各种数据源无缝地关联起来,成为一个广域分布的数据库.

2.2.2 为生物医学知识发现带来新的机遇 生物医学领域的知识发现主要基于海量的科学数据进行数据分析,目的是发现序列的差异、识别新的基因,分析DNA序列、蛋白质结构、分子结构等.传统的生命科学知识发现主要基于对数据和文本的挖掘开展,多年来KDD和文本挖掘的一系列技术进展不断推进着知识发现的研究和应用,包括统计分析、模式识别、趋势预测、实体抽取、关系识别等.然而,基于统计和挖掘的方法存在着固有的缺陷,如计算复杂度高、结果准确性差等,需要从新的途径改善知识发现的效果.近年来语义技术的发展为知识发现方法开辟了新的途径,语义相关的一系列技术使知识的表达、存储、组织和利用发生了重大转变,其中,关联数据是近年来在实践中最为可行的一种方法.遵循关联数据的原则,生命科学对象在细粒度层次被进一步组织起来,通过RDF结构构建实体或概念之间的关联,从而为发现异构数据库之间的联系和隐含知识提供了一种途径.

2.2.3 促进生物医学知识共享与发布 语义Web提出的重要理念之一就是实现资源的共享和重用,关联数据的相关技术为这一理念的实践开拓了道路.关联数据使用Web来互联相关的数据,降低分散数据之间连接的壁垒.然而将现有数据发布为关联数据并互连起来支持共享还是一件困难的事情,因为实际上大量已存在的数据并不满足关联数据的4项原则,于是关联数据的研究者们便开发了一系列实用的工具,来帮助完成传统数据向关联数据的转换.D2R便是其中一个非常流行

1 2 3

生物医学方面论文范本,与生物医学关联数据进展与比较相关论文开题报告参考文献资料:

政治思想工作论文

政治课改论文

思想政治议论文

研究生政治课论文

诚信政治小论文

初中政治论文网

思想政治论文网

高中政治学生论文

思想政治专业论文

高中政治论文题材

生物医学关联数据进展与比较WORD版本 下载地址