当前位置 —论文—写论文— 范文

关于序列类论文范文资料,与深圳杯数学建模夏令营文集相关本科毕业论文

本论文是一篇关于序列类本科毕业论文,关于深圳杯数学建模夏令营文集相关毕业论文开题报告范文。免费优秀的关于序列及数学建模及生物学方面论文范文资料,适合序列论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

好地弥补了方法一中的不全面之处.

方法二讨论这种方法是从序列中相邻相同字母之间的距离即字母出现的周期性着手分析的.它统计了每个字母在序列中两次出现的间隔,并且用方差度量这种间隔的波动大小,由此找到了一个能较好区分A,B组的目标函数,综合地考虑了序列全局和局部的性质.

方法3基于序列熵值

我们可以把一串DNA序列看成一个信息流,这与生物学的基础知识是相应的.关于

A,B的分类,可以考虑其单位序列所含信息量(即熵)的多少.从直观上来看,我们可以认

为,重复得越多,信息量越少..这是我们通过观察A,B组的特点而归纳出的方法.

设序列为L等于(a1,a2,a3,等,an),前m个字符所带的信息量为记

即为加上第m个字母之后所增加的信息量.然后,由,得为整个序列所带的信息量.即为单位长度所带的信息量,现在的问题就归结为如何找出一个合适的.

我们有理由认为:g具有以下性质:

性质即任意加上一个字符,它或多或少带有一定信息量,

性质2:第m个字符(或者是以它结尾的较短序列)与前面的序列(信息流)重复得越

多,的值必然越小,

性质3:第m个字符(或者是以它结尾的较短序列)如果和与它靠得越近的重复,

的值越小,和与它离得越远的重复,的值越大,

性质

对此,我们可以构造如下函数:

其中b为防止分母为零而设的一个小正数,

以第m-t个字符结尾的i字串且与以第t个字符结尾的i字串完全相同

否则

a为一个小于1的数,其存在体现了A/的性质3,即如果越近的位置出现重复,认为字串

信息量越少,反之较多.

的表达式中,t表示两个相同字串之间的距离,i表示宇串长度,这个表达式定量的给出距离和信息量之间的关系.

又由于长度不同的字串重复对信息量的影响是不同的,所以必须在前乘上一个权值

,由概率统计的知识可知,这种影响是呈指数上升的,则可选择一适当的常数c>,1,使得ti等于,这个表达式定量的给出长度和信息量之间的关系.

可以认为,宇串长度太大的重复非常少见,则可将户取为某一固定的正数.那么,给出a,b,c,p参数,就可以把严格确定下来.通过反复上机搜索,我们认为,取,即只检查长度为1到6的字串即可.

另外,职可以将A,B组值分得较开,并可以用来处理未知数据.

方法三讨论这种方法从序列的信息量(熵)人手,认为当序列中有大量的重复元素时,信息量就会比重复少的序列所含有的信息少.所以,其侧重点是是序列前后的重复性,也就是序列元素的相关性.从所给的A,B两类中可以很清楚地看到B中序列重复量大,所含的信息明显少于A组,而这个特征就被我们定义的熵函数凸显出来.将DNA序列看成一个信息流的方法由于其在实际问题中的广泛背景,将会是一个很有价值的想法,统计学和信息论的一套非常成熟的强大工具也会在DNA研究中发挥巨大的作用.

综合模型的建立

以上我们分别用三种方法得出了分类方案,这三种方案分别基于三种不同的方面对问题进行分析.第一种方法主要考虑的是单个字母出现的频率,第二种方法主要考虑每个字母的出现是否具有周期性,而第三种方法则考虑的是每条DNA所蕴含的信息量.我们将这三种方法对A,B组自身进行了检验,都得到了较令人满意的结果,但因为每个模型都只突出考虑序列某一方面的特征,所以,总有一些不尽如人意的地方,于是,我们认为应该把三种方法综合起来考虑,使序列各方面的特征都能得到体现,以使分类更加科学.

下面就是我们将几种方法综合考虑得到最后结果.

以上我们用三种方法得到了三个目标函数:,这三个目标函数可以作为分类的判别标准.将它们看成定义在序列空间,作用于实轴上的函数.现在,我们必须找到一个函数F,使得F可以体现序列的各个特征.

由于的值域范围差别很大,为了有效的比较这三个函数,我们必须

将它们归一化,将看成一定义在上空间上的随机变量,A,为L的子集,则将归一化得

(1)

代入(1)即得

现估计投射L的点到实轴上后,的分界点其中

以为例,A的10个样本点和B的10个样本点不能被一个分界点分开,有极大似然估计的思想,分界点应该把尽可能多的点分开,即

由于的分布未知,故只能假设其满足较均匀的分布,则A,B的分界点的最好估计为而(由g的定义),恰好是分界点的最佳估计.

同理,分界是对应分界点的最佳估计.

令,则其分界点

由F的构造方法知,F作用到A样本上大于零,作用到B样本上小于零,我们确定适当的权值,以此作为A,B的分类法即可.根据不同的实际情况,可以相应调节这三个权值,以体现分类中的不同因素所在的比重,在下面的计算中,我们简单的取a1等于1,a2等于-1,a3等于0.5.得到的结果如表4,表5所示.

表4

序号目标函数值序号目标函数值序号目标函数值序号目标函数值A

组1

51.80288

1.75894

2.5887

0.27582

2.1781A

组6

101.75355

1.25115

1.41371

1.9011

1.97282B

组11

15-1.38528

-1.22372

-0.940004

-0.93612

-2.27462B

组16

20-2.60295

-0.0165438

-1.31022

-2.6043

-3.603表5

序号目标函数值类别序号目标函数值类别21

30-1.96454

0.873279

2.32887

-1.48005

1.21328

-1.184

1.22569

-3.71616

2.69272

0.550393B

A31

40-1.06638

-0.668504

-0.877053

2.60904

1.69535

1.22298

1.83991

-3.01466

0.499763

-2.77993B

B由以上数据可以看出,我们构造的目标函数具有较好的区分度.对于A组,目标函数值都大于零,而对B组,目标函数值都小于零.也就是说,用这种方法,对A,B组样本的区分率已达到了100%.正如前面所说,这种方法综合了序列中的许多信息.因此,我们完全可以采用这个标准来区分C组.表5是对C组区分的结果.

对20个未标明分类的人工序列的分类结果为:

A类:22,23,25,27,29,30,34,35,36,37,39B类:2l,24,26,28,31,32,33,38,40

同样的,我们利用这种方法对所给的182个自然序列进行了分类,结果如下所示(略).

5模型的评价及推广

在我们的模型基础上提出的分类方法可以很好的验证已知的20个序列,并且很好的完成了对未知类型序列的分类.我们认为这种模型,同时考虑了序列中元素的局部性质和序列的全局性质,具有相当的实际背景.当我们知道分类标准的更多信息时,我们可以很方便的调整模型中的参数,使之符合新的情况,具有很好的自学习性.但这个模型比较复杂,在实际计算中参数选择需要花费大量计算时间进行搜索.

我们在模型中使用的基于信息流的方法中,如果选取更为合适的熵函数,一定可以使它更加符合实际情况,在三种方法综合的时候,所取的权值也是可以采用更为有效的方法选取,如应用层次分析法,还可以选取其他分类方法加入.这些都是本模型可以改进的地方.

参考文献

[1]姜启源.数学模型(第::版).高等教育出版社,1992.

[2]刘郁强等.序列空间方法.广东科技出版社

上一页 1 2 3 4 5 6 7 8 下一页

关于序列类论文范文资料,与深圳杯数学建模夏令营文集相关本科毕业论文参考文献资料：