数据挖掘第四讲
数据预处理的作用?
- 在主要的处理以前对数据进行的一些处理
- 现实世界的数据通常无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量需要对现实数据进行处理
常见的数据预处理方法都有哪些,分别如何处理?
-
数据清理
- 现实世界的数据一般是脏的、不完整的和不一致的。数据清理例程试图填充遗漏的值,识别局外者、消除噪音,并纠正数据中的不一致。
数据集成
数据变换
数据归约
数据清理:
- 遗漏值
- 忽略元组
- 人工填写遗漏值
- 使用一个全局常量填充遗漏值
- 使用属性的平均值填充遗漏值
- 使用与给定元组属同一类的所有样本的平均值
- 使用最可能的值填充遗漏值
- 噪音数据
- 噪音是测量变量的随机错误或偏差
- 去除噪音需要数据平滑技术
- 分箱
- 存储的值被分布到一些“桶”或箱中。
- 通过考察“邻居”(即,周围的值)来平滑箱中存储数据的值
- 由于分箱方法导致值相邻,因此它进行局部平滑
- 聚类:将类似的值组织成群或“聚类”,落在聚类集合之外的值被视为噪声
- 计算机和人工检查结合
- 算机根据可能的错误模式进行预搜索
- 人工对错误模式进行检验
- 回归
- 可以通过让数据适合一个函数(如回归函数)来平滑数据
- 线性回归:找出适合两个变量的直线,使得一个变量能够预测另一个
- 多线性回归是线性回归的扩展,它涉及多于两个变量,数据要适合一个多维面
- 不一致数据
- 格式不一致(实际值相同)
- 编码/命名不同(同一个对象)
- 数据冗余(分布式)
- 数据集成与变换
- 数据集成:将多个数据源中的数据结合,存放在一致的数据存储中
- 数据变换
- 平滑
- 聚集
- 数据泛化(属性该被泛化删除还是保留,大量不同值,)
- 规范化(最小,最大规范化)(z-score规范化)
- 属性构造
- 数据相关性(皮尔森相关性)
TF-IDF算法是什么,有什么实际含义?
- TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
- TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。