数据类型
1)关系型数据库
2)数据仓库:
image.png
称为 数据立方体.
image.png
3)事务数据
一次事务作为一条数据,例如:一次购物,一次航班订票,一次用户网页点击
4)其他类型的数据
时间相关或序列数据,股票交易数据,生物学序列数据,工程设计数据
挖掘模式
1)数据特征化与区分
数据特征化:例如:找出10%的软件产品特征
2)数据区分
区分规则:例如:每年购买少于3次电子产品,与多于3次电子产品的人群
挖掘模式:频繁模式,关联和相关性
频繁模式:频繁项集,频繁子序列
频繁项集:例如:顾客频繁购买牛奶与面包。商品的集合就是项集的集合(牛奶,面包)
频繁子序列:购买顺序 例如:先购买数码相机,再购买内存,再购买镜头等。
关联性分析:当一个关联的属性不能同时满足 《最小支持度阀值和 最小置信度阀值》 。则这个属性会被丢弃
用于预测分析的分类与回归
分类:
image.png
回归:
分类用来预测(离散,无序的)标号,而回归建立连续值函数模型。
例子:
image.png
聚类分析:
不像分类与回归分析标记类的(训练)数据集,聚类(clustering)分析数据对象,而不考虑类标号(训练的数据集中一开始并没有标识类别)。对象根据 《最大化类内相似性》,《最小化类间相似性》的原则进行聚类或分组。
image.png
离群点分析:
image.png
置信率:
一般地,每个兴趣度度量都与一个阀值关联,该阀值可以由用户控制,例如:置信度阀值 低于50%的规则可以认为是无趣的。(噪声,异常,少数情况)
image.png
使用了的技术
image.png
数据挖掘的主要问题
挖掘方法:
1)挖掘各种新的知识类型
2)挖掘多维空间中的知识
3)跨学科的挖掘
4)提升网络环境下的发现能力
5)处理不确定性,噪声或不完全数据
6)模式评估和模式或约束指导的挖掘
用户交互:
有效性与可伸缩性:
1)数据挖掘算法的运行时间可预计。短的和可以被应用接受的
数据类型的多样性:
1)处理复杂的数据类型
2)动态的,网络的,全球的数据库
数据挖掘与社会:
1)隐私与用途