【数据挖掘】概论

1. 数据挖掘与知识发现的区别:

                                                                                                                                        知识发现

                                                                                                                模式

                                                                                数据挖掘

                                        数据仓库(选择和变换)

数据库(清理和集成)

数据挖掘是知识发现的一个步骤

2. 数据挖掘任务分为两类:

① 描述性:刻画目标数据中数据的一般性质。

② 预测性:在当前数据上进行归纳,以便做出预测。

3. 分类:找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象类符号。

相关算法:分类规则、决策树、神经网络、朴素贝叶斯、支持向量机、k最近邻分类

4. 聚类:分析数据对象,不考虑类标号。最大化类内相似性,最小化类间相似性。

5. 有趣的模式=>知识:易于被人理解的、在某种确信度上对于新的或检验数据是有效的、潜在有用的、新颖的。

6. 支持度(support):事务数据库中满足规则的事务所占百分比。    support(X=>Y)  P(X\cup Y)

    置信度(confidence):评估所发现的规则的确信程度。         confidence(X=>Y)  P(Y|X)

    准确率:被一个规则正确分类的数据所占百分比。

    覆盖率:类似于支持度,规则可以作用的数据所占百分比。

7. 数据挖掘系统能否产生所有有趣的模式:涉及数据挖掘算法的完全性。

    数据挖掘系统能否仅产生有趣的模式:涉及数据挖掘的优化问题。

8. 监督学习(分类):学习中的监督来自数据集中标记的实例。

    无监督学习(聚类):输入实例无类标记。

    半监督学习:包含标记的和未标记的实例,标记用于学习类模型,未标记用于进一步改进类边界。

9. 机器学习关注模型的准确率。

    数据挖掘除了关心准确率,还强调挖掘方法的有效性和可伸缩性,以及处理复杂数据类型的方法。

10. 信息检索(IR)与数据库的区别:

① 信息检索假定所搜索的数据无结构

② 信息检索主要用关键词、无复杂的结构

11. 数据挖掘主要问题:挖掘方法、用户交互、有效性和可伸缩性、数据类型多样性、数据挖掘与社会

12. 数据挖掘多维视图:数据、知识、技术、应用

13. 数据挖掘功能:用来指定数据挖掘任务发现的模式或知识类型。包括特征化和区分、频繁模式、关联和相关性挖掘、分类和回归、聚类分析、离群点检测等。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。