数据挖掘 (一) 导论

数据类型

1)关系型数据库
2)数据仓库:


image.png

称为 数据立方体.


image.png

3)事务数据
一次事务作为一条数据,例如:一次购物,一次航班订票,一次用户网页点击

4)其他类型的数据
时间相关或序列数据,股票交易数据,生物学序列数据,工程设计数据

挖掘模式

1)数据特征化与区分
数据特征化:例如:找出10%的软件产品特征
2)数据区分
区分规则:例如:每年购买少于3次电子产品,与多于3次电子产品的人群

挖掘模式:频繁模式,关联和相关性

频繁模式:频繁项集,频繁子序列
频繁项集:例如:顾客频繁购买牛奶与面包。商品的集合就是项集的集合(牛奶,面包)
频繁子序列:购买顺序 例如:先购买数码相机,再购买内存,再购买镜头等。

关联性分析:当一个关联的属性不能同时满足 《最小支持度阀值和 最小置信度阀值》 。则这个属性会被丢弃

用于预测分析的分类与回归

分类:


image.png

回归:
分类用来预测(离散,无序的)标号,而回归建立连续值函数模型。

例子:


image.png

聚类分析:
不像分类与回归分析标记类的(训练)数据集,聚类(clustering)分析数据对象,而不考虑类标号(训练的数据集中一开始并没有标识类别)。对象根据 《最大化类内相似性》,《最小化类间相似性》的原则进行聚类或分组。


image.png

离群点分析:


image.png

置信率:
一般地,每个兴趣度度量都与一个阀值关联,该阀值可以由用户控制,例如:置信度阀值 低于50%的规则可以认为是无趣的。(噪声,异常,少数情况)


image.png

使用了的技术

image.png

数据挖掘的主要问题

挖掘方法:
1)挖掘各种新的知识类型
2)挖掘多维空间中的知识
3)跨学科的挖掘
4)提升网络环境下的发现能力
5)处理不确定性,噪声或不完全数据
6)模式评估和模式或约束指导的挖掘

用户交互:
有效性与可伸缩性:
1)数据挖掘算法的运行时间可预计。短的和可以被应用接受的

数据类型的多样性:
1)处理复杂的数据类型
2)动态的,网络的,全球的数据库

数据挖掘与社会:
1)隐私与用途

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。