关联

关联分析用于发现隐藏在大型数据集中的有意义的联系,所发现的联系可以用关联规则(association rule)或频繁项集的形式表示。

1. 项集:在关联分析中,包含0个或多个项的集合被称为项集(itemset)。如果一个项集包含k个项,则称它为k-项集。例如{啤酒,尿布} 是一个2-项集。空集是指不包含任何项的项集。

2. 关联规则(association rule):是形如 X → Y 的蕴含表达式,其中X和Y是不相交的项集,即:X∩Y=?。关联规则的强度可以用它的支持度(support)和置信度(confidence)来度量。

3. 支持度:一个项集或者规则在所有事物中出现的频率,确定规则可以用于给定数据集的频繁程度。支持度是一种重要的度量,因为支持度很低的规则可能只是偶然出现,低支持度的规则多半也是无意义的。因此,支持度通常用来删去那些无意义的规则。

支持度的计算方法如下:

项集X的支持度计算:s(X)=σ(X)/N;

规则X → Y的支持度计算:s(X → Y) = σ(X∪Y) / N。

其中σ(X):表示项集X的支持度计数,N表示记录总数。

4. 置信度:确定Y在包含X的事务中出现的频繁程度。置信度用于度量通过规则得出的推理的可靠程度。对于给定的规则X → Y,置信度越高,Y在包含X的事物中出现的可能性就越大,即P(Y|X)越大。

置信度的计算方法如下:

规则X → Y的置信度计算:c(X → Y) = σ(X∪Y)/σ(X)。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容