分析大量数据是必要的。与数据传感器一样,存储设备价格越来越低,因此搜集和存储数据比以前更加容易。
第一章 引论
为什么需要数据挖掘?我觉得有这么几点。
主要原因:促进业务拓展,实现更多价值。
客观原因:1、随着互联网的发展,数据产生的越来越多也越来越快。2、储备数据和得到数据越来越容易,而且存储数据也越来越便宜。3、分析以及处理数据的工具也越来越多。
可挖掘的数据都有哪些类型?
1、数据库数据。2、数据仓库。3、事务数据。4、其他类型的如时间序列等数据。
数据挖掘是一个特综合的技术,具体可见截图。这也给学习提供了方向
第二章 认识数据
什么是属性?
属性是一个数据字段,表示数据对象的一个特征。在文献中,属性、特征和变量可以互换地使用。术语“维”一般用在数据仓库中。机器学习文献更倾向于使用术语“特征”。而统计学家则更愿意使用术语“变量”,数据挖掘和数据库的专业人士一般使用术语“属性”。
平时所说的属性有一下这些类型:
标称属性
标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的。
二元属性
二元属性是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。二元属性又称布尔属性,如果两种状态对应于true和false的话。
序数属性
序数属性是一种属性,其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。
数值属性,
数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。
另外,还有离散属性与连续属性。
数据的基本统计描述:
均值、中位数、众数
极差、四分位数、方差、标准差和四分位数极差
另外讲了数据的基本统计描述所对应的图形表示。讲了几种数据可视化技术,以及如何度量数据的相似性和相异性。
数值属性的相异性度量:曼哈顿距离、欧几里得距离、闵可夫斯基距离。
第三章 数据预处理
为什么要进行数据预处理?
现实世界中的数据往往不能满足应用的要求。数据如果能满足应用要求,那么他是高质量的。数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。
每章节后面的小节很棒
第四章 数据仓库与联机分析处理