【数据挖掘】概论

1. 数据挖掘与知识发现的区别：

知识发现

模式

数据挖掘

数据仓库（选择和变换）

数据库（清理和集成）

数据挖掘是知识发现的一个步骤

2. 数据挖掘任务分为两类：

① 描述性：刻画目标数据中数据的一般性质。

② 预测性：在当前数据上进行归纳，以便做出预测。

3. 分类：找出描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象类符号。

相关算法：分类规则、决策树、神经网络、朴素贝叶斯、支持向量机、k最近邻分类

4. 聚类：分析数据对象，不考虑类标号。最大化类内相似性，最小化类间相似性。

5. 有趣的模式=>知识：易于被人理解的、在某种确信度上对于新的或检验数据是有效的、潜在有用的、新颖的。

6. 支持度（support）：事务数据库中满足规则的事务所占百分比。 $support(X=>Y)$ $P(X\cup Y)$

置信度（confidence）：评估所发现的规则的确信程度。 $confidence(X=>Y)$ $P(Y|X)$

准确率：被一个规则正确分类的数据所占百分比。

覆盖率：类似于支持度，规则可以作用的数据所占百分比。

7. 数据挖掘系统能否产生所有有趣的模式：涉及数据挖掘算法的完全性。

数据挖掘系统能否仅产生有趣的模式：涉及数据挖掘的优化问题。

8. 监督学习（分类）：学习中的监督来自数据集中标记的实例。

无监督学习（聚类）：输入实例无类标记。

半监督学习：包含标记的和未标记的实例，标记用于学习类模型，未标记用于进一步改进类边界。

9. 机器学习关注模型的准确率。

数据挖掘除了关心准确率，还强调挖掘方法的有效性和可伸缩性，以及处理复杂数据类型的方法。

10. 信息检索（IR）与数据库的区别：

① 信息检索假定所搜索的数据无结构

② 信息检索主要用关键词、无复杂的结构

11. 数据挖掘主要问题：挖掘方法、用户交互、有效性和可伸缩性、数据类型多样性、数据挖掘与社会

12. 数据挖掘多维视图：数据、知识、技术、应用

13. 数据挖掘功能：用来指定数据挖掘任务发现的模式或知识类型。包括特征化和区分、频繁模式、关联和相关性挖掘、分类和回归、聚类分析、离群点检测等。