数据挖掘 (一）导论

1）关系型数据库
2）数据仓库：

image.png

称为数据立方体.

image.png

3）事务数据
一次事务作为一条数据，例如：一次购物，一次航班订票，一次用户网页点击

4）其他类型的数据
时间相关或序列数据，股票交易数据，生物学序列数据，工程设计数据

1）数据特征化与区分
数据特征化：例如：找出10%的软件产品特征
2）数据区分
区分规则：例如：每年购买少于3次电子产品，与多于3次电子产品的人群

频繁模式：频繁项集，频繁子序列
频繁项集：例如：顾客频繁购买牛奶与面包。商品的集合就是项集的集合（牛奶，面包）
频繁子序列：购买顺序例如：先购买数码相机，再购买内存，再购买镜头等。

关联性分析：当一个关联的属性不能同时满足《最小支持度阀值和最小置信度阀值》。则这个属性会被丢弃

分类：

image.png

回归：
分类用来预测（离散，无序的）标号，而回归建立连续值函数模型。

例子：

image.png

聚类分析：
不像分类与回归分析标记类的（训练）数据集，聚类（clustering）分析数据对象，而不考虑类标号（训练的数据集中一开始并没有标识类别）。对象根据《最大化类内相似性》，《最小化类间相似性》的原则进行聚类或分组。

image.png

离群点分析：

image.png

置信率：
一般地，每个兴趣度度量都与一个阀值关联，该阀值可以由用户控制，例如：置信度阀值低于50%的规则可以认为是无趣的。（噪声，异常，少数情况）

image.png

image.png

挖掘方法：
1）挖掘各种新的知识类型
2）挖掘多维空间中的知识
3）跨学科的挖掘
4）提升网络环境下的发现能力
5）处理不确定性，噪声或不完全数据
6）模式评估和模式或约束指导的挖掘

用户交互：
有效性与可伸缩性：
1）数据挖掘算法的运行时间可预计。短的和可以被应用接受的

数据类型的多样性：
1）处理复杂的数据类型
2）动态的，网络的，全球的数据库

数据挖掘与社会：
1）隐私与用途

数据挖掘 (一） 导论