当前位置 —论文政治— 范文

关于数据库方面论文范文,与“全文数字化清代档案文献数据库”的建设相关论文查重软件

本论文是一篇关于数据库方面论文查重软件,关于“全文数字化清代档案文献数据库”的建设相关大学毕业论文范文。免费优秀的关于数据库及数字化档案及信息技术方面论文范文资料,适合数据库论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

#33719;得所需信息,并且可以将检索结果所在页面与原文图像页面方便地切换,以便对数字化信息加以核证,从而实现零差错率是非常必要的.其次,数字化文本的制作在版式、用字上也应尽可能地贴近原文形制,特别是用字上,对异体字、通假字尽量的保持原状,在达到“字字可查,句句可检”的目的的同时,对其时的文字环境、语态等信息也加以忠实地反映.

4.注重开放平台的搭建

数字化工程的成败在很大程度上取决于数字化平台是否为开放系统,我们经过慎重权衡利弊,我们决定采用基于国际标准化字符集文字平台ISO/IEC10646:2003之CJK汉字大字符集(中日韩信息技术通用多八位编码字符集)作为文字平台.完全遵循它的体系结构、编码规则、认同规则、代码变换等一系列国际标准.这样处理保证了档案数字化数据的长期可持续利用,很好地维护了档案文献数据库的开放性,保障在多文种电脑系统下顺畅操作运行.

5.健全功能

在工程实践中我们也清醒地认识到成果具有的方便的应用功能,是得到读者和信息市场认可的前提,为此,经反复论证设计了成果应具备的应用功能:

全文检索:全部数字化内容在保持原文本版面和繁体字原形的基础上,实现“字字可查、句句可检”.

汉字数字化标准:采用ISO/IEC-10646:2003国际标准,可以运行于全球各语言版本的Windows系统.

汉字关联检索:针对国内外不同的读者群(大陆、港澳台、日、韩),不同的语言电脑系统汉字存在同字不同形(图/),以及各种简体、繁体字、通假字、异体字等复杂关系,采用汉字关联检索技术,在全文检索内置汉字关联,建立简繁、正异、通假、正讹、避讳字、中日等各种汉字之间的关联,支持在任何电脑系统下输入的汉字均可准确检索到相关内容.

辅助输入:提供内置“巧笔”手写输入,无须任何键盘输入法,可直接用鼠标写汉字.

多目录浏览方式:可直接前后翻页、翻卷.

辅助工具:软件内置联机《康熙字典》、《中西历对照表》,可随时查生字和进行中西历日期转换,同时,用户还可在阅读结果的任意处直接加注笔记,标注书签,标点和勘误等.

6.数字化工程及软件主要功能

图像修正辅助软件,支持全部扫描图像的端正、去污、修边、合并.

采用网络环境下多工位OCR技术对所有图像页进行流水线式全文数字化处理,电脑自动化识别解决其中90%左右的数字化工作;其后用网络人机交互式图文“列对列”、“字对字”校对,数字化差错率控制在万分之三以内.工程实践证明,这种高科技录校技术最适用于古籍档案文字处理,其效率与质量远远胜过手工录校.

采用基于国际标准化字符集文字平台ISO/IEC10646:2003之CJK汉字大字符集(中日韩信息技术通用多八位编码字符集)作为文字平台.

“全文数字化清代档案文献数据库”的建设参考属性评定
有关论文范文主题研究: 关于数据库的论文例文 大学生适用: 专升本毕业论文、电大毕业论文
相关参考文献下载数量: 22 写作解决问题: 本科论文怎么写
毕业论文开题报告: 论文模板、论文总结 职称论文适用: 期刊发表、职称评副高
所属大学生专业类别: 本科论文怎么写 论文题目推荐度: 最新题目

全文数字化电子编目及软件功能.支持浏览阅读,从电子目录进入相关内容,可以按页、按卷顺序前后翻阅,可以方便地切换文本页和图像页;支持全文检索,关 键 词+多条件检索(可选汉字关联).也可从阅读的文本页选任意关 键 词进行检索;支持范围检索,用户可以在所选当前目录范围内进行检索避免全库检索;支持必备辅助工具:中西历换算、在线字典、书签笔记、手写输入、复制、打印等.

难点及处理办法

保真要求数字化的文本页,尽量保持与原文图像页相同的版式,但馆藏皇家档案文献虽比普通古籍相对规整,却同样存在各式各样的批注文字、文字的修改、插入、删除、圈点等标注.对这些信息的数字化处理,不可能如正文处理那样整齐划一,而是必须仔细辨别处理.这对操作人员的要求提出了较高的要求,需有一定古汉语阅读能力,能够区分哪些是正文,哪些是其他文字,对各种汉字异体字、异写字也要有一定辨识能力.此外,如何方便地将这些正文外特殊内容展现在电脑屏幕上也是非常困难的.

再有异体字的保真与认同问题,为保持档案文献的历史原貌,工程中尽量采用档案汉字原形,但由于历史档案文献的特殊性,即便电脑系统偌大的字符集依旧不可能百分之百地保持原档字迹的真貌.因此,在数字化工程中,只能尽量在电脑系统上展现原档文字字形,不做原档文字修正及简繁转换,尽可能保持与原档字形相同或相近,只做有控制的电脑系统的异体字认同代换(例:户和、即和、和真、和慎、和等不做代换),对于电脑系统以外的字,尽量选用异体字进行代换,代换依据为《汉语大字典异体字表》.至于疑难字(指OCR无法识别的字迹模糊字)与形近字的辨识,疑难字则只能先期单独标注,然后用软件把疑难字所在页提取出来,依据上下文进行人工逐字甄别;形近字如已、己、巳,刺、剌,太、大,汉、汊,傅、,子、予等,也只能根据上下文予以判定.


这篇论文url:http://www.sxsky.net/zhengzhi/050761527.html

还有标点处理问题,鉴于原档存在大量圈点符号标注,有些代表某种特定含义,数字化时只能根据这些圈点位置和大小的区别加以区别处理.由于这些圈点散布于文字页各处,且不同于文字有上下文关系,只能通过人工判别标记正确与否,因此所用人工耗时巨大.

更有外国国名的处理问题,由于有清一代尚无统一的外国国名和用字规范,各朝对同一个国家称谓也存在不同叫法,这不仅给中文数字化带来诸多问题,同时对读者检索相关内容也带来诸多不便,如国名用字多在汉字左侧加了偏旁̶

关于“全文数字化清代档案文献数据库”的建设的大学毕业论文范文
关于数据库方面论文范文
0;口”,不少字在电脑系统没有编码,无法数字化,即便有编码,读者使用时也很难输入.

少数民族名称问题亦有歧视性,与外国国名存在类似问题.外国人名多加“口”偏旁;少数民族人名多加“犭”偏旁.解决办法采用对此尽可能利用已有的汉字“正字”替换.

另有绘图和表格中的文字问题,书写有上下竖排顺序,也有左右横排书写顺序,甚至颠倒书写,数字化处理非常困难,目前暂时采用图像方式显示,今后将予以数字化,让此类文字也可参与检索.

结语

通过“全文数字化清代档案文献数据库”第一期工程的实践,制作完成了全文数字化的《大清历朝实录》和《大清五部会典》.其具有的高度保真效果和方便实用的检索和辅助阅读功能,给研究型学者带来了极大的便利.对全文数字化前处理工作的项目设计、版本或文本分析、整理和编辑等工作环节的目的和必要性有了更加深刻的认识,也完善了各环节的工作方法和组织运作模式.此次实践的成果还使我们看到全文数字化档案资源可以非常方便地进行合并、分解、重组,衍生出多种多样的信息产品的潜力,随着该数据库建设的推进,各阶段成果的累积和在同一平台上的整合,这种潜力将会逐步显露出来,从而进一步引发清代档案文献传统开发利用模式的变革.荟

(作者单位:中国第一历史档案馆100031)

1 2

关于数据库方面论文范文,与“全文数字化清代档案文献数据库”的建设相关论文查重软件参考文献资料:

怎么写政治论文

政治工作论文

形势政治课论文

政治小论文

政治论文题材

国际政治论文

本科政治论文

政治学论文发表

思想政治专业论文

民主政治论文

“全文数字化清代档案文献数据库”的建设(2)WORD版本 下载地址