当前位置 —论文本科论文— 范文

电子商务网站类论文范本,与基于快速构建模板的购物信息抽取方法相关论文网

本论文是一篇电子商务网站类论文网,关于基于快速构建模板的购物信息抽取方法相关硕士毕业论文范文。免费优秀的关于电子商务网站及自动化及电子商务方面论文范文资料,适合电子商务网站论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

整条数据的或一个记录的信息抽取,如新闻主题的信息抽取是当个数据域的抽取,而电子商务网站数据的抽取必须将整条商品数据以及与商品相关的数据的抽取同时抽取出来保存到一个实体中.现在各大电子商务网页一般都是通过模板生成的,针对这种通过模板动态生成的网页信息,提出了一种快速构建模板的方法来对购物信息抽取,以用于购物搜索引擎或比价推荐系统中,这种方法主要是通过定义一套定位查询,以及拷贝等操作语言来快速构建抽取模板,来定义抽取规则.快速构建模板的方法与杨少化等[15]提出的自动化检测模板的信息抽取方法相比,由于快速构建模板方法先将文本分块,将要抽取的数据定位到一个唯一的区域,这使得信息抽取在准确率方面有一定的提升.在面对一些经常变化的价格信息,评论数信息,这些数据经常会通过客户端脚本语言(Javascript,JS)或异步客户端脚本和可扩展标记语言(AsynchronousJavaScriptandXML,AJAX)加载,面对这些数据如果能找到其对应的全球资源定位器(UniformResourceLocation,URL),那么也可以通过模板的配置将这些数据提取出来,这在数据召回方面无疑是很大的提升.另外提出的定位语言和操作语言具有较好的可扩展性,适用于购物信息抽取.

2模板定义

2.1网页模板

电子商务网站的商品列表页或详情页都是通过从数据库动态获取数据,将页面填充得到的,这些填充数据的页面一般称之为网页模板,将网页模板定义为web_template等于TUAUC.

T即标签(Tag),为超文本标记语言(HypertextMakeupLanguage,HTML)标签,一个Web文档的简易DOM树结构如图1所示.

实验中:字段召回率是指单个字段提取的召回率,比如商品名称提取的召回率;字段准确率是指单个字段提取的准确率;记录召回率记录召回率在哪个表格的列中,请明确.是指一个商品的所有信息抽取的召回率,包括商品的名称、价格、评论数等所有字段召回率的平均值.通过实验可以发现,基于快速构建模板的信息抽取方法在召回率和准确率方面都优于EXALG、ViNTs和ViPER方法.

针对淘宝的20个商品网页进行了信息抽取,其中准确率达到80.82%;对京东的20个商品网页进行信息抽取实验,准确率达到71.25%;对亚马逊的20个商品网页进行信息抽取实验,准确率达到86.94%.

7结语

针对电子商务网站的特点以及当前信息抽取方法不足,提出了基于快速构建模板的信息抽取方法.这里的快速主要是通过自定义的定位与操作的语言进行快速的文本定位以及数据抽取,语言简洁而且容易理解,能够迅速完成对数据域的抽取.通过实验表明这种方法在数据抽取的查全率和查准率方面都有较好的效果.针对网页模板发生变化的情况,采用自动监控机制,能及时发现模板改版并及时构建新的抽取模板.但是存在的不足是在构建模板的时候还需要人工的干预,而且针对AJAX格式的网页数据无法抽取.以后的工作中研究的重点将集中在模板的自动化识别和构建上.

参考文献:[1]WANGJ,LOCHOVSKYFH.DatarichsectionextractionfromHTMLpages[C]//ProceedingsoftheThirdInternationalConferenceonWebInformationSystemsEngineering.Washington,DC:IEEEComputerSociety,2002:313-

关于基于快速构建模板的购物信息抽取方法的硕士毕业论文范文
电子商务网站类论文范本
322.

[2]CHANGCH,HSUCN,LUISC.AutomaticinformationextractionfromsemistructuredWebpagesbypatterndiscovery[J].DecisionSupportSystems,2003,35(1):129-147.

[3]LIB,CHENY,YUS.Researchoninformationextraction:asurvey[J].ComputerEngineeringandApplications,2003,39(10):1-5.(李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5.)

[4]GENGH,SONGQ,HEH.AWebinformationextractionmethodbasedonvisualblock[J].InformationStudies:TheoryandApplication,2009,32(3):106-109.(耿焕同,宋庆席,何宏强.一种基于视觉分块的Web信息抽取方法研究[J].情报理论与实践,2009,32(3):106-109.)

[5]EMBLEYDW,CAMPBELLDM,SMITHRD,etal.Ontologybasedextractionandstructuringofinformationfromdatarichunstructureddocuments[C]//ProceedingsoftheSeventhInternationalConferenceonInformationandKnowledgeManagement.NewYork:ACMPress,1998:52-59.

[6]LUK,LIX.Webinformationextractionbasedonontology[J].ApplicationResearchofComputers,2003,33(7):46-49.(陆科进,李新颖.基于ontology的文本信息抽取[J].计算机应用研究,2003,33(7):46-49.)

[7]LIUY,LINY,CHENZ.TextinformationextractionbasedonhiddenMarkovmodel[J].JournalofSystemSimulation,2004,16(3):507-511.(刘云中,林亚平,陈治平.基于隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2004,16(3):507-511.)

[8]LIUH,CHENJ,XUX.Webinformationextractionbasedontemplateflowconfiguration[J].ComputerEngineering,2008,34(20):55-57.(刘辉,陈静玉,徐学洲.基于模板流程配置的Web信息抽取[J].计算机工程,2008,34(20):55-57.)

[9]LIS,WANGH,YUS,etal.Researchonmaximumentropymodelforkeywordindexing[J].ChineseJournalofComputers,2004,27(9):1192-1197.(李素建,王厚峰,俞士汶,等.关 键 词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197.)

[10]LINY,LIUY,ZHOUS,etal.UsinghiddenMarkovmodelfortextinformationextractionbasedonmaximumentropy[J].ActaElectronicaSinica,2005,33(2):236-240.(林亚平,刘云中,周顺先,等.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240.)


本文转载于 http://www.sxsky.net/benkelunwen/06014635.html

[11]LUH,CAOC,WANGS.Implementationofametapropertybasedquantityattributevalueextractionsystem[J].JournalofComputerResearchandDevelopment,2010,47(10):1741-1748.(卢汉,曹存根,王石.基于元性质的数量型属性值自动提取系统的实现[J].计算机研究与发展,2010,47(10):1741-1748.)

[12]WANGY,TANS,LIAOX,etal.Extendeddomainmodelbasednamedattributeextraction[J].JournalofComputerResearchandDevelo

1 2 3

电子商务网站类论文范本,与基于快速构建模板的购物信息抽取方法相关论文网参考文献资料:

自考本科选什么专业好

吉林大学自考本科怎么样

本科生论文发表

吉林自考本科报名时间

自考本科要求

历史系本科毕业论文

深大函授本科

本科毕业论文目录怎么写

成人自考可以直接考本科吗

本科生论文目录

基于快速构建模板的购物信息抽取方法(2)WORD版本 下载地址