当前位置 —论文—写论文— 范文

关于序列类论文范文资料,与深圳杯数学建模夏令营文集相关本科毕业论文

本论文是一篇关于序列类本科毕业论文,关于深圳杯数学建模夏令营文集相关毕业论文开题报告范文。免费优秀的关于序列及数学建模及生物学方面论文范文资料,适合序列论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

0340;方法.有通过核苷酸片段差异的区分方法[4],同源比较算法[5],隐马尔可夫模型(HiddenMarkovModel,HMM).这种方法将DNA序列的形成看作随机过程,而HMM可自动找出其隐藏的统计规律性[6].大家熟知的动态规划方法[7],以及傅立叶分析[8],线性判别分析(LinearDiscriminantAnalysis,LDA)[9].此外许多专门的方法用于DNA的结构分析与寻找:法则系统(rule—basedsystem)[10],语言系统(1inguistic)[11],决策树(decisiontree)[12].这些方法对于从DNA序列中找出编码序列均有很好效果,有些准确率

深圳杯数学建模夏令营文集参考属性评定
有关论文范文主题研究:	关于序列的论文范文	大学生适用:	大学毕业论文、函授论文
相关参考文献下载数量:	33	写作解决问题:	怎么撰写
毕业论文开题报告:	论文提纲、论文目录	职称论文适用:	期刊发表、职称评中级
所属大学生专业类别:	怎么撰写	论文题目推荐度:	经典题目

高达90%.有兴趣的读者可以在最近出版的《解码生命》[13]一书中查到有关评论.

A题将DNA结构的研究具体化为不同序列的分类,这种分类对于寻找出序列的结构

具有基础的价值.它是寻找结构的一种简化而有效的变形,这种具体化在帮助学生模型化

是有益的.然而这种具体化也给出题带来一定困难,为了方便广大参赛队对这种分类方法

的理解与数值实验,我们设计了两套数据.一套是人工构造的数据,而另——套是来源于自然的DNA数据库.显然这两套数据既有联系又有明显的差别,这种差别使得企图用比较简单的方法而不加区别地处理这两类数据将不会得到好的效果.正如自然界给人类提出的问题不太可能恰好满足我们希望的数学条件一样,A题也要求解题者具有立足于实际,从有限而不完全的已知数据去探索更复杂的数据中的未知规律这样一种研究素质.

4阅卷随想

在评阅试卷时,老师们对年轻学子在A题解法中表现出的热情,智慧,严谨和富予创造性都留下极深刻的印象.作为命题人,更对本科学生能在短短的三天中所做出的成果惊喜,并在许多十分聪明的解法中学习到了新的东西.A题的试卷几乎令所有阅卷老师叹服:中国大学生年轻有为！

本文网址:http://www.sxsky.net/xie/070567068.html

学生论文的立意大多在"特征提取一分类方法"这一模式,这显然是最容易想到的,大多数试卷也在这一立意之下,选择好的方法而得到较好的结果.特征的选择,首先易于让人想到的是A,T,C,G四个字符在字符串中出现的频率,这在文献中常称为"单个碱基丰度",单纯使用这一特征,许多学生的文章对人工数据得到好的结果,但对后面182个序列的分类却常常不太理想.在优秀论文中浙江大学的一个队将这种特征提取后形成四维特征向量,然后分别用欧氏距离,马氏距离分类法和Fisher判别模型,对人工数据得到理想的分类,对自然数据(182个)也得到很高的分类正确率,是这一类算法中较突出的卷例.另有一些试卷在这一特征基础上考虑到字符的顺序,将模型做得更复杂些.更多的论文是用4个字符的字符串作为特征,由于这时特征一下子增加了许多,于是需要从其中评判挑选并排出特征的重要性顺序,这种特征的提取往往可以得到较好的效果.特别是对于自然序列,大连理工大学的一个队通过概率统计方法首先对已知的人工序列集进行特征提取,从而形成特征向量较为全面地表达分类特征,当然也出现了高维问题的计算复杂性,他们得到了很好的分类效果.值得指出的是,由于竞赛题一方面源于生物学实际问题,同时又相对地独立于生物而形成适当抽象的"试题",因此试题并不是基因组中某种结构的翻版.有些试卷过多地研究了生物学的来源,而且将A题仅局限于他们所想象的结构(例如Exon结构),于是三联子编码成为分类的唯一特征,而三联码的不重叠性又使他们在阅读框的起始位置前不知所措,以至所产生的结果不理想.

在分类方法上,统计的方法(特别是聚类方法)是最易于想到的,许多试卷从而构造了好的方法.但是简单而不加修正地使用统计方法并不能得到好的结果.这是因为人工已知序列的样本数只有20个,而且都很短,待分类的自然数据样本数182且都长得多,因此从小样本中得到的统计规律在处理大样本时效果显然不佳.这是众多用统计方法所得到结果不理想的一个直接原因.有些学生看到并指出了这一点,而且有的试卷注意到人工数据与自然数据的生物学的差别而在分类自然序列时修改了分类方法而得到较好的结果,显然概念的清楚与思维的灵活得到很好的统一.用各种方式构造判别函数的方法以及神经网络的方法,特别对于非线性系统的识别很有效.因此通过构造各种神经网络来进行分类,更多的队得到很好的效果.例如大连理工大学的一个队,用统计方法提取较好的特征又用BP网络进行分类,方法严谨,考虑细致,对自然序列的分类正确率高达88%.而科技大学的一个队通过对神经网络方法的逐层的改进,又辅以统计方法,产生了比较精细的网络算法,也得到分类自然数据的正确率达65%的好效果.

除了上述大量"正规方法"以外,一些试卷有创意地提出了一些十分新颖的思想,有些还取得了很好的效果.例如中国科技大学的一个队将序列看作信息流,注意到字母出现的特征是熵的改变,是十分新意的,他们最终又将设计好的几个模型形成综合判别的目标函数,也得到好的分类效果,对自然数据分类正确性达58%.而北京大学的一个队将DNA字符串看作一篇文章,而利用了类似文本分类中的特征判别方法定义关键词标准,进而使用优选法,找出关键词的特征,然后使用层次分类.他们的方法精细,尽管分类最终效果并不十分理想,仍不失为值得一读的好文章.由于篇幅有限,有些文章虽然没有作为优秀论文刊出,但是在其中仍然表现出学生丰富的想象力和创造精神.—篇十分有趣的文章是大连理工大学的另一个队,这些学生既没有拘泥于"特征提取+分类"的模式,也没有局限自己的思维于"概率统计""神经网络""判别函数"等"大路"方法.他们深入地分析了序列问题的生物来源,又观察人工序列的数学结构和数值试验结果,在一些DNA序列几何表达文献的启发下,提出了简捷的几何分类法,得到了出色的分类结果.对自然数据分类的正确率高达94%.而且这种不依赖训练集的方法,属于目前研究基因组结构的令人关注的方向.

应当指出,科研能力的表现是多方面的.在试卷中,我们注意到许多学生十分用心于科学文献的检索,阅读与借鉴.例如一些试卷研究了我国着名学者,中科院院士张春霆教授的Z曲线方法[14],并简化用于A题分类(例如中国科技大学的另一个队),也取得好的结果.此外,特别值得指出的是香港城市大学的论文,该文的思路清晰,表述严谨,图表数据完整,行文流畅,作为本科学生三天完成的科研论文值得赞赏！

综上所述,作为A题

上一页 1 2 3 4 5 6 7 8 下一页

关于序列类论文范文资料,与深圳杯数学建模夏令营文集相关本科毕业论文参考文献资料：