当前位置 —论文—本科论文— 范文

关于数据库类论文范本,与基于知网的文按需检索系统相关毕业设计论文

本论文是一篇关于数据库类毕业设计论文,关于基于知网的文按需检索系统相关研究生毕业论文开题报告范文。免费优秀的关于数据库及用户及图书馆方面论文范文资料,适合数据库论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

摘要：数字图书馆是Web数据库的典型应用领域之一.为了帮助用户高效地访问数字图书馆中的海量资源,该文提出一种按需论文检索系统,通过本地搜索和在线搜索的有效结合,可以批量处理用户的查询请求,进行快速响应.在详细介绍系统框架和实现原理的基础上,该文对基于知网的原型系统实现过程进行了详细阐述.

关键词：Web数据库；数字图书馆；按需检索；知网

中图分类号TP311文献标识码：A文章编号：1009-3044(2012)02-0340-05

CNKI-basedRequirement-orientedSystemforSearchingPaper

JIANGXin

(WenzhouTeachingandResearchingInstitute,Wenzhou325000,China)

Abstract:Digitallibraryisoneofthetypicalapplicationsofwebdatabases.Tohelpuserstoeffectivelyaccesstheresourcesindigitallibrary,arequirement-orientedsystemforsearchingpaperisproposed.Bymeansofthebinationoflocalsearchandonlinesearch,thesystemcandealwiththeuser’squeryinthewayofbatchprocessing.Thedetailsofthesystembasedontheopen-sourcelibcurllibraryareintroduced,whichcanconstructandsubmitthequeryformtoCNKIautomatically.

Keywords:deepweb,digitallibrary,requirement-oriented,CNKI

Web作为互联网信息发布平台蕴含着海量信息,按照信息蕴涵的“深度”可以将Web划分为SurfaceWeb和DeepWeb[1].与SurfaceWeb相比,DeepWeb蕴藏了更加丰富的高质量结构化信息,也被称为Web数据库.如何使得用户能够方便地访问Web数据库中隐藏的丰富资源是一项极其值得期待的需求[2],已经成为近几年来数据库领域研究的热点.

作为Web数据库典型应用的数字图书馆[3],基于现代计算机和网络技术的数字信息资源系统,将分散于各种载体、不同地理位置的信息资源以数字化的方式储存,以网络化的方式互相连接,通过分布式的信息管理实现全球范围的信息资源共享[4].近年来,数字图书馆的建设得到飞速发展,知网、万方等数据库中存储着越来越多的丰富数字资源.然而,从如此海量的信息中快速获取用户所需的信息,并不是一件容易的事情.如何构建以用户需求为导向,以服务为中心[5]的数字资源检索系统引起了广泛关注.

本文针对数字图书馆中的典型资源――中国知网（CNKI）进行应用研究,在分析其工作原理的基础上,设计出一个根据用户的需求批量地从知网获取相关信息的按需论文检索系统,以实现用户“随需即取”的查询体验.

1基于知网的论文按需检索系统框架

通常,用户要从知网、万方、期刊网等数据库中下载论文资源,必须使用一个合法的帐号登录到网站的检索系统,然后通过网站提供的查询表单提交搜索关键字,网站后台动态地生成检索结果,以网页的形式返回给用户.这种方式最大的不足在于一次只能进行一个搜索,用户需要花费大量的时间等待网站的查询响应[6].为了提高用户查询的效率,本文设计了一个按需的论文检索系统,借助于本地搜索和在线搜索的智能组合,能够以批处理的方式响应用户的检索请求,极大地提高了用户的检索效率.目前,我们已经实现了基于中国知网的论文按需检索原型系统,系统的体系结构图如图1所示.

该系统的基本原理如下：在系统中,我们将用户的历史检索请求存储在本地数据库中.当用户提交一个新的检索请求时,系统首先检索本地元数据库,判断该请求是否存在于本地数据库中.如果存在,则进行本地搜索并将与该查询请求相关的论文返回给用户.如果不存在,则系统自动抽取用户的检索请求信息并构造出知网能够接收的查询请求,提交给知网服务器进行在线检索.在将知网返回的查询结果返回给用户的同时,系统存储该查询及相应结果于本地服务器,便于后续查询使用.

2知网的工作原理分析

中国知网（CNKI）是全球领先的数字出版平台,是一家致力于为海内外各行各业提供知识与情报服务的专业网站[7].从知网上获取信息和从谷歌、百度等通用搜索引擎获取信息的不同之处在于：知网是授权访问的网站,要想从知网上获取信息,必须具有知网注册用户的权限,并且处于已登录状态.

在知网的查询首页,如果用户指定了查询信息并点击“跨库检索”按钮,浏览器将再次发送一个表单给知网,该表单中的各个查

图1按需论文检索系统体系结构图询属性包括：检索项、匹配、开始年份、结束年份、检索词以及所选择的数据库.

知网与谷歌、百度等搜索引擎获取信息之间的另一个不同之处是：谷歌与百度把搜索关键字等相关信息直接拼接在url地址中,并用http的GET方式向服务器索取搜索结果；而知网则像它提交登录信息一样,把搜索关键字等相关信息拼装在一个表单中,并用http的POST方式把该表单发送给服务器,以请求搜索结果.

在查询首页中,当用户输完检索词等相关信息并点击“跨库检索”按钮后,浏览器就把相应的查询属性拼装成一个表单,用POST方法提交给知网.

在将该查询表单发送给知网服务器之后,浏览器将收到一个如图2所示的结果页面.为表示方便,将被框起来的部分称为“内页”,框意外的部分称为“外页”.实际上,在提交了第一个查询表单之后,浏览器只收到了外页.而当浏览器继续提交第二个表单后,才将收到内页.这第

关于数据库类论文范本二个表单是由浏览器自动提交的,不需要用户再输入相关的查询信息.

具体来说,浏览器在收到外页后,根据外页的“要求”自动构造了一个第二个查询表单,该查询表单不仅包括前面提到的所有查询属性,还包括了其他的一些默认的属性,如“searchflag等于0”等.第二个查询表单发送之后,浏览器将收到查询结果页,也就是图5中的内页.内页包含了所有符合要求的论文详细信息的链接地址.这些链接地址是临时的,一段时间之后将会失效,即过了有效时间之后用户再点击那些链接将无法跳转到详细信息的页面.如果查询结果数量比较多,结果页面并不会一次把所有结果的链接都显示出来,而是每次只显示10条,用户可以点击“下一页”链接来继续显示后续的10条链接,以此类推.

图2知网的查询结果页面

如果用户在有效时间之内点击那些详细信息的链接,那么浏览器将使用http的GET方法去获取这个页面,该页面也就是用户所需要的最终页面,包含了论文的作者中文名,作者单位,关键词,摘要等详细信息,并提供了该论文的caj格式和pdf格式的全文供用户下载.

3按需论文检索系统的实现

在深入分析知网的信息获取原理基础上,本章将介绍如何实现基于知网的论文按需检索系统,利用程序自动实现与知网服务器的交互功能,达到根据用户需求从知网上批量下载资源的目标.

3.1系统类库定义

本文所实现的原型系统均基于libcurl库进行开发,系统中所定义的主要类库介绍如下.

由于每个新定义的CURL类型指针在使用前都需要用curl_easy_init函数初始化,为了使用方便,将把CURL类型的指针封装在Curl类中.

classCurl{

public:

Curl(){根据*link的值调用curl_easy_init函数}

Curl(constCurl&c){修改*link的值}

Curl&operator等于(constCurlc){复制c并修改*link}CURL*get(),