当前位置 —论文—本科论文— 范文

关于图像类论文范文例文,与基于Hadoop的海量医学图像检索系统相关毕业论文网

本论文是一篇关于图像类毕业论文网,关于基于Hadoop的海量医学图像检索系统相关学年毕业论文范文。免费优秀的关于图像及医学及计算机应用方面论文范文资料,适合图像论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

摘要：为了提高海量医学图像检索效率,针对单节点医学图像检索系统的缺陷,提出一种基于Hadoop的海量医学图像检索系统.首先采用Brushlet变换和局部二值模式算法提取医学示例图像特征,并将图像特征库存储于Hadoop分布式文件系统（HDFS）；然后采用Map将示例图像特征与特征库的特征进行匹配,采用Reduce接收各Map任务的计算结果,并按相似度大小进行排序；最后根据排序结果找到医学图像的最优检索结果.实验结果表明,相对于其他医学图像检索系统,Hadoop的医学图像检索系统减少了图像存储和检索时间,提高了图像检索速度.

关键词：医学图像；检索算法；Brushlet变换；局部二值模式；分布式系统

中图分类号：TP181；TP391.41文献标志码：A

0引言

随着数字化影像技术发展,医学图像急剧增多,如何对这些医学图像进行有效管理和组织,以便为临床诊断提供服务,是医学工作者面临的难题[1].基于内容的医学图像检索（ContentBasedMedicalImageRetrieval,CBMIR）具有检索速度快、精度高等优点,在医学教学、辅助医学诊断、医学资料管理等领域得到了广泛应用[2].

CBMIR算法需要计算示例医学图像特征与特征库特征的相似度,这是一个典型的数据密集型计算过程[3].当特征库中特征数量比较大时,传统浏览器/服务器模式（Browser/Server,B/S）单节点的检索效率难以满足图像的实时性要求,且系统的稳定性、可扩展性差[4].云计算（cloudputing）可以将任务分配到各个工作节点共同完成任务,具有分布式、并行处理能力,为医学图像检索提供了一种新的研究思路[5].Hadoop分布式文件系统（HadoopDistributedFileSystem,HDFS）是一个可扩展的分布式文件系统,它可以运行于廉价的普通硬件上,得到许多公司支持,如：Google、Amazon、Yahoo!等,在不了解底层细节的情况下,利用Map/Reduce函数轻松实现并行计算,在大规模数据处理领域得到了广泛的应用[6-8].利用Hadoop的优点,可以较好地解决医学图像检索过程中检索效率低的难题,而且目前国内相关研究较少[9].

为了提高医学图像检索效率,针对B/S单节点系统存在的不足,提出一种基于Hadoop分布式的医学图像检索系统.实验结果表明,Hadoop的医学图像检索系统减少了图像检索时间,提高了图像检索效率,对于海量医学图像检索优势更加明显.

1Hadoop平台

Hadoop平台是当今应用最为广泛的开源云计算编程平台,它是一个在集群上运行大型数据库处理应用程序的开放式源代码框架,支持使用MapReduce分布式调度模型来实现资源的虚拟化管理、调度和共享[10].

1.1HDFS体系结构

一个HDFS集群包含一个主服务器（NameNode）和多个块服务器（DataNode）,被多个客户端（Client）访问.

NameNode负责管理文件系统的名字空间以及客户端对文件的访问；DataNode负责管理它所在节点上的数据存储,并负责处理文件系统客户端的读写请求,在NameNode统一调度下进行数据块的创建、删除和复制[11].HDFS把文件切割成块,这些块分散地存储于不同的DataNode上,每个块还可以复制数份存储于不同的DataNode上,因此具有较高的容错性和对数据读写的高吞吐率.

1.2MapReduce

MapReduce是一个编程模型,用于进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算：首先要将一个逻辑上完整的大任务分解成若干个子任务,系统根据任务的信息采用适当的策略把不同的任务分配到不同资源节点上去运行,当所有子任务处理结束,则完成整个大任务的一次处理,最后将处理结果传给用户[12].在Map阶段,每个Map任务对分配给它的数据进行计算,然后按照Map的输出key值将结果数据映射到对应的Reduce任务中；在Reduce阶段,每个Reduce任务对接收到的数据作进一步聚集处理,得到输出结果.为使MapReduce的数据处理流程更加形象,Map/Reduce模型的计算流程如1所示.

2Hadoop的分布式医学图像检索

2.1提取Brushlet域特征

Brushlet变换是为解决角分辨问题的图像多尺度几何分析工具,二维Brushlet具有一定的方向结构和振动频率范围,能够完全重构,其基函数的结构大小和分析窗口的大小成反比.具有相位参数的二维Brushlet基表示了其方向,因此较好地反映了图像的方向信息,能对Fourier域进行分解[13].1层Brushlet变换将Fourier平面分成4个象限,系数被分为4个子带,对应的方向为π/4+kπ/2（k等于0,1,2,3）；

2层分解是在1层的基础上进一步把每个象限分为4部分,共分为12个方向,分别为π/12+kπ/6（k等于0,1,等,11）,分解后系数子带共有16个,其中环绕中心的4个子带是低频分量,其余的为高频分量；以此类推.图2是3层分解方向图.

给定一个图像f,对其进行Brushlet的l层分解,分解后生成实部f^r和虚部f^i【下标i表虚部两个部分,每个部分有4l个子带,每个子带反映的是其对应分解方向上的方向信息.能量集中的地方正是纹理图像突变的部分,对每个子带可以选用模值的均值和标准差来表示其能量信息,因为Brushlet是复值函数,这里同时采用变换后实部和虚部对应子带的系数来计算模值,分解后实部和虚部的第n个子带分别记作f^nr和f^ni（n等于1,2,等,4l）.第n个子带模值的均值μn和标准差σn分别为：2.2提取局部二值模式特征

局部二值模式（LocalBinaryPattern,LBP）可以刻画邻域内像素点的灰度相对于中心点的变化情况,注重像素灰度的变化,符合人类视觉对图像纹理的感知特点[14].因此对图像提取LBPu23（u2表示跳变次数不超过2次）,并将直方图作为图像的空域特征.

2.3相似度匹配

其中：P为待检索医学图像,Q为医学图像库的图像.

对于图像LBP特征,首先对特征进行归一化处理,然后采用欧氏距离距离计算相似度.

2.4医学图像检索算法

2.4.1MapReduce的医学图像存储

图像存储是医学图像自动检索的基础,是一个数据密集型计算过程,采用传统方法将图像放到HDFS中十分耗时,因此采取MapReduce分布式处理方式将图像上传到HDFS中.具体如下：

1）Map阶段,采用Map函数每次读入一幅医学图像,并提取图像的颜色和纹理特征.

2）Reduce阶段,将提取的医学图像特征数据存入HDFS.HBase是一个面向列的分布式数据库,因此HDFS的医学图像存储采用HBase表形式存存储.具体流程如图2所示.

2.4.2MapReduce的医学图像检索

医学图像及其特征均存储于HBase中,当HBase的数据集非常大时,扫描搜索整个表要花费比较长的时间.为了减少检索图像的时间和提高检索效率,利用MapReduce计算模型对医学图像检索进行并行计算,基于MapReduce的医学图像检索步骤如下：

1）收集医学图像,提取相应的特征,并将特征数据存入HDFS；