1. 数据挖掘与知识发现的区别:
知识发现
模式
数据挖掘
数据仓库(选择和变换)
数据库(清理和集成)
数据挖掘是知识发现的一个步骤
2. 数据挖掘任务分为两类:
① 描述性:刻画目标数据中数据的一般性质。
② 预测性:在当前数据上进行归纳,以便做出预测。
3. 分类:找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象类符号。
相关算法:分类规则、决策树、神经网络、朴素贝叶斯、支持向量机、k最近邻分类
4. 聚类:分析数据对象,不考虑类标号。最大化类内相似性,最小化类间相似性。
5. 有趣的模式=>知识:易于被人理解的、在某种确信度上对于新的或检验数据是有效的、潜在有用的、新颖的。
6. 支持度(support):事务数据库中满足规则的事务所占百分比。
置信度(confidence):评估所发现的规则的确信程度。
准确率:被一个规则正确分类的数据所占百分比。
覆盖率:类似于支持度,规则可以作用的数据所占百分比。
7. 数据挖掘系统能否产生所有有趣的模式:涉及数据挖掘算法的完全性。
数据挖掘系统能否仅产生有趣的模式:涉及数据挖掘的优化问题。
8. 监督学习(分类):学习中的监督来自数据集中标记的实例。
无监督学习(聚类):输入实例无类标记。
半监督学习:包含标记的和未标记的实例,标记用于学习类模型,未标记用于进一步改进类边界。
9. 机器学习关注模型的准确率。
数据挖掘除了关心准确率,还强调挖掘方法的有效性和可伸缩性,以及处理复杂数据类型的方法。
10. 信息检索(IR)与数据库的区别:
① 信息检索假定所搜索的数据无结构
② 信息检索主要用关键词、无复杂的结构
11. 数据挖掘主要问题:挖掘方法、用户交互、有效性和可伸缩性、数据类型多样性、数据挖掘与社会
12. 数据挖掘多维视图:数据、知识、技术、应用
13. 数据挖掘功能:用来指定数据挖掘任务发现的模式或知识类型。包括特征化和区分、频繁模式、关联和相关性挖掘、分类和回归、聚类分析、离群点检测等。