当前位置 —论文政治— 范文

互联网类论文范文资料,与基于热点文件下载的网络舆情信息挖掘方法相关论文网

本论文是一篇互联网类论文网,关于基于热点文件下载的网络舆情信息挖掘方法相关毕业论文提纲范文。免费优秀的关于互联网及舆情及文件方面论文范文资料,适合互联网论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。

【摘 要】网络信息量的逐年增长,使得获取网络敏感的舆情信息并做出相应的监控处理变得十分重要,网络舆情信息挖掘技术研究十分活跃.本文介绍舆情挖掘步骤及其核心算法,分析互联网热点文件下载曲线与网络舆情发展曲线的关联,通过关联关系对互联网文件下载数据进行信息挖掘,从中找出是否存在符合曲线发展规律的热点文件,最终将文件的主题与当时的网络舆情信息进行比对,对结果进行验证,为网络舆情的监测提出了一种新的方法.

【关 键 词】热点文件下载数据曲线网络舆情信息挖掘

随着互联网的快速发展,网络信息变得多样化,网络的虚拟性、隐蔽性、开放性等特点,使网络舆情信息仅靠人工统计监测更加困难.因此,如何从海量的网络数据中自动提取数据,成为国内外学者研究的热点.近年来,网络舆情信息挖掘技术作为一种跨学科技术受到人们越来越多的关注,其应用范围被用于信息安全、主题跟踪、热点话题检测与预警等方面.本文基于网络舆情信息挖掘技术,通过分析热点文件发展曲线与舆情文件发展曲线的特点,对下载数据进一步挖掘分析,为网络舆情的监测提供了一种新的参考.

一、信息挖掘步骤

首先介绍互联网文件下载的网络舆情信息挖掘的主要步骤,其流程图如下:

图1网络舆情信息挖掘流程

如上图(图1)所示,基于互联网文件下载的网络舆情信息挖掘共分3个步骤:样本数据的准备阶段、样本数据的训练阶段、测试数据的挖掘阶段,最终得到数据挖掘结果.下面针对各个阶段的内容进行介绍[1].

1.1样本数据准备阶段

采集一段时间内的互联网文件下载的数据,并将其分为两类:一类是包含舆情主题的热点文件,它包含当时相关的舆情主题,其发展曲线也和网络舆情发展曲线类似.一类是普通下载文件,它是任何类型文件,其下载发展曲线较平稳,没有热点文件的特征.

1.2样本数据的训练阶段

根据采集的样本数据进行数据挖掘训练,形成训练集,该训练集将成为后续测试数据信息挖掘的分类评判标准.

1.3测试数据信息挖掘阶段

对大量的互联网文件下载的数据进行信息挖掘,分类的评判标准采用上一阶段所生成į

关于基于热点文件下载的网络舆情信息挖掘方法的毕业论文提纲范文
互联网类论文范文资料
40;训练集,将所有测试数据进行分类.信息挖掘过后对于每个互联网下载文件将产生一个类型标签,代表该下载文件是属于互联网热点文件还是普通下载文件.

二、网络舆情信息挖掘技术

根据信息挖掘步骤,网络舆情挖掘技术分为爬虫技术、网页解析技术、分类技术、聚类技术及数据处理技术.其中常用的分类技术有中心法(向量空间模型)、朴素贝叶斯分类、支持向量机(SVM)、K最近邻算法(KNN)等.下面将主要介绍本文选用的KNN算法.

KNN算法是一种非参数分类算法,现已广泛应用于数据挖掘的各种领域[2].算法的基本思想可以简单定义为:假定每一个类包含多个数据样本,每个数据都有唯一的类标记表示这些样本属于哪一个分类.通过计算待分类的样本x与训练样本中每个文本的相似度,找出与x最接近的k个样本,然后根据这k个样本的类别标签确定x的类别.

KNN算法的优点:首先,原理简单,易于实现;其次,KNN虽遵守极限定理,但是待分类文本只与相近样本有关,因此很好的避免了样本不平衡,同时相似度根据样本的所有特征值计算,也减少了由于特征选择不当造成的误差.


如何写互联网一篇论文
播放:36808次 评论:4000人

然而,KNN本质上属于一种懒惰的学习方法,当数据分布不均匀、倾斜现象严重时,大类别样本的特征参数出现的频率增长,这会影响KNN分类的性能.同时,KNN的相似度需要对待分类样本与训练样本逐个计算,因此,距离机制是KNN算法实现的关键[3].

三、基于热点文件下载的相似度计算

直观分析热点文件下载曲线和网络舆情发展曲线(如图2),对两条曲线进行相似度计算,这里引入增长率、增长向量、曲线相似度的概念.

其中,上式中Rise(t1|t2)为从tl到t2这段时间的曲线增长率,Numt1为tl时间点的数量,Numt2为t2时间点的数量,通过计算增长率完成单纯的增长情况的目的[4].

3.2增长向量:在计算出两条曲线每日的增长率后,以曲线的一个周期时间为向量的维数.从曲线图(图3)中可以看出,设定曲线的周期为30天,由此定义一条曲线的增长向量如下:

其中,上式中Rise(ti|tj)代表ti到tj这段时间的增长率,所以上式中增长率向量GN表示的是30天内曲线的增长情况.

3.3曲线相似度:常用计算相似度的算法有余弦夹角、内积、Jaccard系数等.余弦相似度就是简单的对每个文档的向量进行单位化,然后进行内积计算,得出的结果可以严格控制在[0,1]之间,这不仅易于判断,而且降低了处理较大数据的计算代价[5].因此,余弦相似度在目前得到了广泛的应用.余弦夹角计算相似度的公式如下:

(I)

这里,DN代表热点文件的曲线向量,RN代表网络舆情的曲线向量.根据两条曲线的相似度进行计算,两条曲线的增长向量如下:


本文来自:http://www.sxsky.net/zhengzhi/05083553.html

DN等于(5.0000,2.3333,1.0000,1.5000,0.6358,0.5000,0.3333,0.3750,0.2727,0.2857,0.3889,0.1600,0.0690,0.0484,0.0309,0.0149,0.0296,0.0146,0.0136,0.0286,0.0069,0.0130,0.0070,0.0042,0.0040,0.0069,0.0052,0.0063,0.0016);

RN等于(4.0000,1.4000,0.7500,0.4286,0.3000,0.2308,0.1875,0.0947,0.6899,0.8397,0.5869,0.4426,0.3947,0.3200,0.2564,0.0126,0.0968,0.0769,0.0635,0.0536,0.0536,0.0432,0.0369,0.0210,0.0128,0.0048,0.0053,0.0045,0.0043)计算得出热点文件与网络舆情文件的曲线相似度:

可以看出,两条曲线在增长趋势上有着很大的相似性,曲线发展趋势大致相同,因此两者间存在着相应的联系,通过对热点文件数据进行分析,可以判别出其相应的舆情发展趋势,对于舆情信息挖掘具有重要的作用.

3.4基于KNN算法及曲线相似度的改进,得到对热点文件下载的网络舆情挖掘算法的步骤如下:

(1)计算出待分类数据和样本数据的距离,即曲线相似度,计算公式为公式(I).

(2)在计算出的距离后找出10个离这个待分类数据最近的样本数据.

(3)统计出这10个样本数据大多属于的分类.

(4)这个分类就是这个待分类样本数据所属的分类.

四、舆情挖掘实验与结果

将舆情挖掘步骤与舆情挖掘算法应用在WEKA平台.WEKA集合大量机器学习算法,包括数据的预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化.同时,实验阶段采用的是SQLServer2005.

下面利用测试数据进行数据挖掘,得到测试数据的各个分类标签,即该文件是属于网络舆情文件或者普通文件.从属于网络舆情文件的结果中找到属于符合舆情发展类的数据,查看其文件主题可以得到如下(表1):

可以看出,基于热点文件下载所得的挖掘结果(表1)中,如“白静事件”等均与2012年3月份的网络舆情热点(表2)相符,说明基于热点文件下载数据可以挖掘出相应舆情信息.将挖掘结果分析如下:

第一,能够根据互联网下载数据挖掘出正确的网络舆情.这类网络舆情可以通过互联网下载数据挖掘得出,该类网络舆情通过互联网下载文件进行传播,人们对该文件下载以及上传达到传播的目的.

第二,不能根据互联网下载数据挖掘出正确的网络舆情.该类网络舆情无法从互联网下载数据中挖掘出来,例如表2中的“麦当劳过期食品遭央视3.15曝光”等.其原因是这类舆情主要通过网页传播,一些新闻网站对其进行大量报道,导致不能根据下载数据准确&

1 2

互联网类论文范文资料,与基于热点文件下载的网络舆情信息挖掘方法相关论文网参考文献资料:

民主政治论文

中职政治论文

政治课改论文

企业思想政治论文

政治学论文发表

政治论文400

中考政治论文

政治论文诚信

高中政治课改论文

高中政治小论文

基于热点文件下载的网络舆情信息挖掘方法WORD版本 下载地址