特征类有关论文范文集,与十佳医生候选人简要事迹相关论文参考文献格式

本论文是一篇特征类有关论文参考文献格式,关于十佳医生候选人简要事迹相关专科毕业论文范文。免费优秀的关于特征及数据及统计分析方面论文范文资料,适合特征论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

绪论

1.本论文的研究内容

本文是广西壮族自治区教育厅科研项目(桂科自0339037)"建立基于头发微量元素分析的可用于辅助诊断的模式分类器"项目的一部分.计算机辅助诊断是模式识别的一个重要的应用,目的是帮助医生做诊断决定,当然最终的诊断由医生来完成.计算机辅助诊断已经应用于实际,主要研究各种医疗数据,如超声波图,脑电图等.计算机辅助诊断的需求源于医疗数据较难解释,并且解释结果多依赖于医生的经验这一事实.本项目旨在利用统计模式识别的方法来建立基于头发微量元素分析的可用于辅助诊断的模式分类器,以揭示头发中的多个微量元素含量水平与某种疾病的发生之间的定量关系.即通过获取样品容量足够大的头发样品,和在目前的技术条件下与当前设备的检测限制的情况下,获取头发样品中尽可能多的元素水平,在此基础上探求稳健可靠的模式分类器,从而建立某一种(如鼻咽癌)或几种疾病的基于头发元素水平的辅助诊断指标.

本论文(Independentponentanalysis,ICA)[][2][3][4][5][6].从数学的角度来说,用ICA方法进行特征提取就是为多维数据寻找一种变换,使得数据的特征尽可能相互独立.ICA在特征提取中的应用主要是对图像进行特征提取,尝试用ICA方法对项目中的鼻咽癌病人的头发中微量元素含量水平数据进行了特征提取.

本论文的研究内容:

本文主要的工作围绕着ICA的理论,算法及对鼻咽癌病人头发微量元素含量水平数据进行特征提取中的应用而展开,具体内容如下:独立分量分析可以有效地提取非线性可分的分类问题中的高维数据的最有效的特征.1.2模式分类概述

模式识别是一门以应用为基础的学科,目的是将对象进行分类,这些对象与应用领域有关,它们可以是图像,信号波形或者任何可测量且需要分类的对象.因此它的核心问题是有关分类的问题,许多传统学科都牵涉到分类问题.模式识别本质上是根据经验数据导出问题域系统的模型,再根据所导出的系统模型对系统的未来输入做出响应预测.因此,要建立模式识别系统对问题域系统行为进行预测,首先必须获取某种程度的经验数据.根据问题域的不同,所获取的经验数据中可能含有二值数据(0-1),类属数据(枚举,字符等),实数数据(任何实数)等.经验数据一般可用矩阵表示,如:

矩阵的每一列表示一可观测量(可称为特征,在此特征个数为),每一行表示一次观测(可称为样品,在此样品个数为,在统计学中,样品亦指所获取的经验数据中的全部观测值,我们所称样品可指获取的经验数据中的单次观测值或全部观测值,文中确切含义可由上下文推定),特征可表示为,样品可表示为.

样品矩阵的每一样品分别来自个不同的类别,获取时,可能已知每一样品所属的可能类别,这时,可采用有监督(亦称有导师,有教师)方法进行学习,形成模式分类算法,根据所得模式分类算法可对同一过程未知类别样品进行类属划分,有监督方法可采用句法,统计,神经网络,进化途径进行学习,具体方法有:贝叶斯方法,费歇尔方法,多重判别分析法,隐马尔可夫模型法,Parzen窗法,近邻法,二次分类器,多峰识别分类器,神经网络中的认知机,神经网络中的自适应分类器,模拟退火,Boltzmann机,遗传算法,支持向量机等.获取样品时,若样品所属的可能类别未知,这时,只可采用无监督聚类方法进行学习,具体方法有:迭代聚类,层次聚类,自适应共振网,自组织特性映射,图论方法,主分量分析法,非线性分量分析法等.具体的模式分类算法一般与问题域密切相关,理论上并不存在对任何分类问题都具最佳分类能力的分类算法.

样品矩阵中的不同特征代表所观测对象的不同物理量或某种数量,这些不同物理量或数量之间可能互相独立,完全线性相关,或存在某种程度的相关(线性的或非线性的).若不同特征间互相独立,但一般每一特征对类别的分辨能力不同,因而需要采用适当的特征选择方法选择最合适的特征,这样既可极大减少采样的代价,又可避免维数灾难问题.不同特征间若相关,则更需要采用适当的特征选择方法乃至特征提取方法以获得最合适的特征.在建立一个模式识别系统的工作中,特征选择与特征提取是最关键和最困难的问题,特征选择与特征提取牵涉到相关特征的分类效能评价问题,因而是和分类算法紧密关联的.因此有人说,最好的特征编码器即是最好的模式分类器.

1.特征提取

在科学研究的众多应用领域中,一个普遍存在的问题是如何从采集的数据中获取信息.随着科技的高速发展,大量数据的测量及存储已经不再成问题,但是获取数据本身显然是不够的,提取产生这些数据的系统本身的信息才是根本目的所在.而且,通常我们所获得的原始数据的数据量相当大,样本处于一个高维空间,如果我们直接用原始数据进行分类器设计的话,无论从计算的复杂程度还是分类器性能来看都是不适宜的.为了有效地实现分类识别,就要把原始数据映射(或变换)到低维空间,得到最能反映分类本质的特征,这个过程叫特征提取,映射后的特征叫二次特征,它们是原始特征的某种组合(通常是线性组合).特征提取基本任务是如何从许多特征中找出那些最有效的特征.特征的提取强烈影响到分类器的设计及其性能,因此,特征提取是模式识别中的一个关键问题.

从广义上说,特征提取就是指一种变换,若是测量空间,是特征空间,则变换就叫做特征提取器.为了使问题尽可能的简单化以及考虑到计算的复杂性,我们通常对原始数据进行线性变换,因为这会对特征提取的后继分析带来极大的方便.为了便于研究,通常把采集得到的数据看成多维随机变量的一系列样本值,以便于将随机变量的数值统计方法应用到源数据.对多维信号在时刻t的采样,可看作是维随机变量的某一观测样本矢量,其中为各个分量.按照某种准则对其施加一线性变换,记为:

(1.1)

为变换的结果.假设这里的是一线性变换,于是有中的每个分量都是原始数据所有分量的线性组合:

(1.2)

对应每个的一组系数称为一个基向量.(1.2)可简单写作矩阵形式:

(1.3)

故多维数据的线性变换简单地说就是按照一定的准则找一系列加权系数,组成线性变换矩阵中的各个基向量(的行向量),而这个基向量的联合就是一个新的坐标系.将源数据在这样一个坐标系上展开,得到的各个分量便是变换的结果.要求变换后的数据在最大程度上体现源数据间隐含的实质结构.并且的各个分量能够尽可能地代表产生源数据的系统本身的物理机制.基于多维随机变量统计分析的框架,变换矩阵的寻找方法通常是建立一个体现输出结果的统计特性的目标函数.而这种统计特性因算法中基本准则的不同而不同,可能是一,二阶的,如相关系数,协方差等,也有可能是高阶的,如互信息,非高斯性等.

1.传统的特征提取方法

传统的特征提取方法主要有:主分量分析(PrincipleComponentAnalysis,PCA)[][8],奇异值分解(SingularValueDeposition,SVD)[],投影追踪(ProjectionPursuit,PP)[][11],自组织映射(Self-OrganizingMap,SOM)[]等.以上方法都属于特征提取的经典范畴,

1 2 3 下一页

特征类有关论文范文集,与十佳医生候选人简要事迹相关论文参考文献格式参考文献资料：