基于Apriori算法的网络社区知识形成影响因素分析

更新时间:2024-04-13 05:38:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

龙源期刊网 http://www.qikan.com.cn

基于Apriori算法的网络社区知识形成影响因素分析

作者:徐凡

来源:《科技视界》2015年第18期

【摘 要】研究了网络社区中影响知识形成的因素,通过运用Appriori算法对数据进行分析研究,发现,在社区成员吸收网络社区知识时回帖量与知识表达方式对网络社区知识形成产生非常重要的影响,同时知识分享者的专业对社区成员知识形成具有很大的影响作用。 【关键词】网络社区;知识形成;影响因素;Apriori算法

关联规则是数据挖掘中最常用的方法,关联规则挖掘的主要目的是从大量的数据中寻找关联性,为决策分析提供理论支持[1]。关联规则运用最经典的运用是购物篮分析“啤酒与尿布”的例子。而关联规则中最常运用到的是Apriori 算法,它能够根据用户提供的条件有效的进行数据挖掘。

1 Apriori 算法及其特点

Agrawal等人在1993年首次提出关联规则,该规则主要用于挖掘数据之间的关联性,对事物之间的亲密度进行描述。关联规则可描述为:设I={i1,i2,…,in}是项目集,D是全体事务的集合,集合T∈I,即T为I的子集,每个事务有唯一的TID标识。关联规则就是形如X=>Y的蕴含式,其中X∈I,Y∈I且X∩Y=?准,X称为规则的条件,Y称为规则的结果[1]。运算结果通过支持度和可信度进行约束。

关联规则中的支持度(Support)S表示D中有S%的事务同时包含X和Y,即事务集中同时包含X和Y的事务数与所有事务数之比,记作Support(X,Y)=P(X∪Y)。置信度(Confidence)C表示D中有C%的事务同时也包含Y,即包含X和Y的事务数与包含X的事务数之比,记作Confidence(X,Y)=P(Y/X)=P(X∩Y)/P(X)[2]。运用关联规则进行数据挖掘就是要挖掘出满足用户设定的最小支持度和置信度的规则。我们把同时满足用户设定的最小支持度和最小置信度的规则称为强规则。关联规则的数据挖掘,一般分为两步:首先找出所有满足用户设置的最小支持度的项目集,其次利用最大数据项集所生成的关联规则,根据用户指定的最小置信度确定规则的取舍,最后得到强关联规则[1]。

Apriori 算法作为经典的关联规则算法,其算法的实现是通过对数据库进行扫描从候选项集中找出频繁项,不断对候选项计数来完成的。它使用的是逐层搜索的迭代方法,通过对前一项集的探索来发现符合该次条件的项集。也就是说,Apriori 算法的基本思想是通过对数据库的多次扫描以发现所有符合条件的频繁项。在第k次扫描中只考虑具有同一长度k的所有项集。在后续的扫描中,首先以前一次所发现的所有频繁项集为基础,生成所有新的候选项集。

本文来源:https://www.bwwdw.com/article/du0p.html

Top