《数据挖掘导论》CH1绪论-读书笔记

1.1什么是数据挖掘

定义:在大型数据存储库中,自动地发现有用信息的过程。

knowledge discovery in database

1.2数据挖掘要解决的问题(面临的问题)

-可伸缩:抽样技术,开发并行,分布算法

-高维性

-异种数据和复杂数据

-数据非所有权与分布

-非传统的分析

1.3数据挖掘的起源

数据挖掘利用了统计学+人工智能、机器学习和模式识别+数据库技术、并行计算、分布式计算。

1.4数据挖掘任务

-预测任务:根据其他属性的值,预测特殊属性的值,用说明变量函数构建目标变量模型。

=分类:离散

=回归:连续

*预测模型可以用来确定顾客对产品促销活动的反应。

-描述任务:(探查性)导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹,异常)

=关联分析:用来描述数据中强关联特征的模式*分析货品连带

=聚类分析:发现紧密相关的观测值组群

=异常检测:识别特征显著不同于其他数据的观测值。


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容