当前位置 —论文本科论文— 范文

电子商务网站类论文范本,与基于快速构建模板的购物信息抽取方法相关论文网

本论文是一篇电子商务网站类论文网,关于基于快速构建模板的购物信息抽取方法相关硕士毕业论文范文。免费优秀的关于电子商务网站及自动化及电子商务方面论文范文资料,适合电子商务网站论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

摘 要:针对由模板生成的购物信息网页,且根据其网页信息量大,网页结构复杂的特点,提出了一种不使用复杂的学习规则,而将购物信息从模板网页中抽取出来的方法.研究内容包括定义网页模板和网页的信息抽取模板,设计用于快速构建模板的模板语言,并提出一种基于模板语言抽取内容的模型.实验结果表明,在标准的450个网页的测试集下,所提方法的召回率相比抽取问题算法(EXALG)提高了12%;在250个网页的测试集下,召回率相比基于视觉信息和标签结构的包装器生成器(ViNTs)方法和增加自动信息抽取和视觉感知(ViPER)方法分别提升了7.4%,0.2%;准确率相比ViNTs方法和ViPER方法分别提升了5.2%,0.2%.基于快速构建模板的信息抽取方法的召回率和准确率都有很大提升,使得购物信息检索和购物比价系统中的网页分析的准确性和信息召回率得到很大的改进.

关 键 词:模板;电子商务;信息抽取;购物信息;商品

中图分类号:TP391.3;TP18

文献标志码:A

Abstract:

ConcerningtheshoppinginformationWebpageconstructedbytemplate,andthelargenumberofWebinformationandplexWebstructure,thispaperstudiedhowtoextracttheshoppinginformationfromtheWebpagetemplatebynotusingtheplexlearningrule.ThepaperdefinedtheWebpagetemplateandtheextractiontemplateofWebpageanddesignedtemplatelanguagethatwasusedtoconstructthetemplate.Thispaperalsogaveamodelofextractionbasedontemplate.Theexperimentalresultsshowthattherecallrateoftheproposedmethodis12%higherthantheExtractionproblemAlgorithm(EXALG)bytestingthestandard450Webpages;theresultsalsoshowthattherecallrateofthismethodis7.4%higherthanVisualinformationandTagstructurebasedwrappergenerator(ViNTs)methodand0.2%higherthanAugmentingautomaticinformationextractionwithvisualperceptions(ViPER)methodandtheaccuracyrateofthismethodis5.2%higherthanViNTsmethodand0.2%higherthanViPERmethodbytestingthestandard250Webpages.TherecallrateandtheaccuracyrateoftheextractionmethodbasedontherapidconstructiontemplateareimprovedalotwhichmakestheaccuracyoftheWebpageanalysisandtherecallrateoftheinformationintheshoppinginformationretrievalandtheshoppingparisonsystemimprovealot.

Keywords:template;electronicmerce;informationextraction;shoppinginformation;goods

0引言

随着互联网的快速发展,网页以爆炸式速度持续增长,为了应对网页数据的动态增长,搜索引擎公司和互联网企业和学者们提出了很多的网页分析方法,以获取更多准确的网页数据.网页信息的格式呈现异构性,为了将自然文本、半结构化的信息转化成结构化的信息进行存储,学者们提出了很多的方法,主要有基于模板的、基于本体域的、基于文档对象模型(DocumentObjectModel,DOM)树的、基于机器学习的信息抽取方法.万维网(WorldWideWeb,WWW)文档信息抽取主要是从半结构化的或无结构化的网页数据中抽取出感兴趣的数据,并将数据存储在传统数据库中[1-2].信息抽取系统的主要功能是从文本中抽取出特定的事实信息[3].随着电子商务的发展,购物网站在各行各业兴起,购物网站信息也增多,为了集成各大电子商务网站的信息,方便用户检索以及进行购物比价,对购物信息(商品标题、价格、图片等)的抽取变得尤其重要.

现在除了一些购物比价系统,搜索引擎也开始收录购物网站信息,用于购物搜索,不管是购物比价系统还是购物搜索,都需要商品的信息,其网页信息通过爬虫抓取,通过网页分析来获得具体的商品数据;这些通过网页分析得到的购物数据可以用于网页排序、网页索引以及比价推荐系统中,在网页分析中网页信息抽取是一个核心的功能.为了从各大电子商务网站中,将与商品相关的数据从网页中准确快速地提取出来,主要做了如下工作:

基于快速构建模板的购物信息抽取方法参考属性评定
有关论文范文主题研究: 关于电子商务网站的论文范文素材 大学生适用: 学院学士论文、高校大学论文
相关参考文献下载数量: 100 写作解决问题: 如何怎么撰写
毕业论文开题报告: 论文任务书、论文设计 职称论文适用: 杂志投稿、中级职称
所属大学生专业类别: 如何怎么撰写 论文题目推荐度: 优秀选题

1)定义了网页模板和网页信息抽取模板,给出了模板的模型,为基于快速构建模板的信息抽取模型的构建提供了依据.

2)构建了基于模板的信息抽取的模型,在网页模板和网页信息抽取模板的基础上构建了基于模板的信息抽取模型,呈现了基于模板的购物信息抽取的流程.


电子商务网站本科论文如何写
播放:20357次 评论:5770人

3)设计并实现了模板语言.这套模板定义语言、模板搜索定位语言、模板操作语言,是整个购物信息抽取的核心,为所有购物站点的购物信息抽取成为可能.

4)在测试集下进行实验,验证了基于快速构建模板的购物信息抽取方法的高效和准确性.

1相关研究

1.1国内外研究现状

在网页的文本信息抽取领域,出现了很多的方法,这些方法可以根据研究的侧重点不同分为不同的类型.根据抽取的对象,可以分为自由文本的信息抽取方法和通过模板生成的结构化文本信息抽取方法;针对结构化文本信息抽取方法,又可以分为列表页的信息抽取方法和详情页信息抽取方法;根据抽取的自动化程度,可以把信息抽取方法分为手动信息抽取方法、半自动化信息抽取方法和自动化信息抽取方法;根据抽取的复杂程度,可以把信息抽取方法分为简单的信息抽取方法和嵌套的信息抽取方法;根据抽取的级别不同,可以把这些信息抽取方法分为字段信息抽取方法和记录信息抽取方法.

耿焕同等[4]针对动态生成的网页提出了一种基于视觉分块的信息抽取方法.该方法是通过去除文本的突显效果标签,而留下文本标签(如〈TD〉,〈FONT〉等)构建视觉树,然后确定视觉块,生成抽取的扩展标记语言路径(XMLPathLanguage,XPATH).这种方法适用于数据域比较大的信息抽取(如新闻正文),而且它把网页的每个数据块都抽取出来,这对只需要商品信息的信息抽取不适用.基于本体的信息抽取方法[5-6],本体的构建比较困难繁琐,而且是针对像招聘广告这类的数据域明显的无结构化文本.刘云中等[7]提出的基于隐马尔可夫模型的文本信息抽取方法模型的构建比较麻烦,一旦网页结构发生变化,需要重新对网页进行训练,会严重影响信息抽取的性能与效率.文献[8-14]也对信息抽取方法进行了相应的研究.目前使用最广泛的是基于模板的信息抽取方法,通过模板构建抽取规则,然后通过解析模板来对网页数据进行抽取.

1.2与现有研究的不同

已有的研究大部分都是针对自然文本中的信息抽取,包括实体和关系的抽取,其中命名实体识别是研究的重点,这些信息抽取方法对于电子商务信息网站Web信息的抽取不适用.对于Web信息的抽取有些研究也只是针对单个数据域的抽取,不是一

1 2 3

电子商务网站类论文范本,与基于快速构建模板的购物信息抽取方法相关论文网参考文献资料:

自考本科选什么专业好

吉林大学自考本科怎么样

本科生论文发表

吉林自考本科报名时间

自考本科要求

历史系本科毕业论文

深大函授本科

本科毕业论文目录怎么写

成人自考可以直接考本科吗

本科生论文目录

基于快速构建模板的购物信息抽取方法WORD版本 下载地址