网络信息相关论文范文参考文献,与WEB就业信息抽取技术相关论文格式

时间:2020-07-05 作者:admin
后台-系统-系统设置-扩展变量-(内容页告位1-手机版)

本论文是一篇网络信息相关论文格式,关于WEB就业信息抽取技术相关函授毕业论文范文。免费优秀的关于网络信息及表格及信息方面论文范文资料,适合网络信息论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

摘 要:随着Inter的快速发展,网络已成为人们查询信息的重要渠道.Web作为巨大的数据源,从Web中提取知识是当前研究的热点之一.在这些海量信息中,大多都是基于HTML的.该文提出一种基于HTML结构的Web就业信息抽取模型.

关 键 词:信息抽取;HTML;就业信息;WEB表格

中图分类号:TP391文献标识码:A文章编号:1009-3044(2013)10-2298-03

1概述

随着Inter的快速发展,互联网正在快速渗透到人们的日常生活中,网络已成为人们获取信息的主要渠道之一.网络有信息量大和使用方便快捷的特点,在当前严峻的就业形势下,成为人们了解就业信息的重要手段.因此面对如此浩大混杂的网络信息海洋,研究怎样从就业信息发布网站中抽取出有用的信息,十分有意义.

在这些网络信息中,大多都是使用HTML表示的,也就是说现阶段的Web网页大部分是采用超文本标记语言HTML(HypertextMarkupLanguage)进行描述的.HTML是半结构化的,这种语言用定义好的标签来组织信息,用户看到的网络信息就是经过浏览器解析HTML形成的.然而,HTML在语法限制上并不严格,语义也不清晰,页面内部还加入了Javascript脚本语言,人们想要从网页中快速准确的获得有用的信息十分困难.

目前基于HTML结构的信息抽取,对需要抽取的信息点定位的依据是Web页面的结构特征.通过将页面文档解析为语法树并对其学习产生抽取规则,把信息抽取过程转化为操作语法树来实现信息的抽取.目前比较具有代表性的系统有Wrap、W4F、LIXTO和RoadRunner.

2信息抽取模型

我们发现此类网站的页面结构比较简单和统一,就业信息在页面中都是用Table表格作为表达方式集中起来.因此,我们将对此类网站信息提取的研究重点主要放在对Web页中表格信息抽取的研究上.

具体来说,我们将Web中的表格分为以下两类:


网络信息自考专科毕业写论文怎么写
播放:27106次 评论:3577人

1)假表格:其作用是布局网页结构和美化页面的,里面不包含我们需要的数据信息,在这些表格中一般都包含大量图片、广告或链接等内容,我们叫它假表格.但是也不排除假表格中包含数据信息,比如,我们要抽取出表格中包含的就业信息.在同一页面中,可能同时存在另外一张表格,其中包含火车票价格的信息.虽然表格中的火车票价格也是数据信息,但并非我们所需要的,这种表格我们也称它为假表格.

页面清洗解析:对获得的WEB页进行代码过滤、页面清洗,将HTML文档转化成结构化的、语法要求严格的文档,这里指符合XML标准格式的文档.然后根据文档对象模型,HTML文档被解析后,转化为DOM树.DOM树的每个结点是一个对象.DOM模型描述了文档的结构,利用对象的方法和属性,可以方便地访问、添加和删除DOM树的结点和内容.

表格定位:定位出真正包含用户感兴趣信息的真表格,过滤掉假表格.

信息抽取:识别表格内容并提取信息.

3数据抽取实现

3.1页面清洗解析

3.2WEB表格定位


这篇论文url http://www.sxsky.net/benkelunwen/06085183.html

在HTML页面中,数据表格指的是用来组织和显示数据信

后台-系统-系统设置-扩展变量-(内容页告位2-手机版)
声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:123456789@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。
后台-系统-系统设置-扩展变量-(内容页告位3-手机版)