聚类是无监督学习的典型方法,累的个数事先是不知道的,形成的类的物理意义也需要专业人士做出分析。聚类指的是把对象数据分组成多个类或簇,令生成的类的内部的任意2个项目之间具有的相似度很高,而属于不同类的两个项目之间的相异度也要很高。主要的聚类方法有:划分的、层次的、基于密度的、基于网络的与基于模型的等。
孤立点分析是分类预测和聚类分析的副产品,孤立点是指与数据的一般行为或模型不一致的那些对象。一般情况下很多的数据挖掘方法会把孤立点作为噪声或异常数据,将其忽略或删除。但在网络入侵检测,信用卡欺骗检测等实际应用中,这些数据是十分有参考价值的。主要的检测技术有基于统计的孤立点检测,基于距离的孤立点检测,基于偏差的孤立点检测
演变分析:数据的时序演变分析是针对事件或对象行为随时间变化的规律或趋势,并以此来建立模型。主要包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析
信息摘要:一种自动编制文摘的技术,即利用计算机将一篇文章浓缩成一篇短文的过程。
信息抽取:根据一个事先定义好的、描述所需信息规格的模板,从非结构化的文本抽取相关信息的过程。
元数据挖掘:对元数据进行的挖掘,例如,对文本元数据的挖掘。文本元数据可以分为两类,一类是描述性元数据,包括文本的名称、日期、大小、类型等信息。另一类语义性元数据,包括文本的作者、标题、机构、内容等信息。
数据挖掘与传统的数据分析的本质区别是数据挖掘是在没有明确假设的前提下挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效、实用三个特征。
数据挖掘过程:Fayyad过程模型和CRISP- DM过程模型
Fayyad过程模型:数据准备、数据挖掘和结果分析
数据准备:数据选取、数据预处理、数据变换
数据挖掘:首先根据对问题的定义明确挖掘的任务或目的,如分类、聚类、关联规则发现或序列模式发现等。然后选择算法
结果解释与评估:对发现的模式进行可视化,或者把结果转换为用户容易理解的其他表示形式
Fayyad过程模型从某种意义上来说是面向理论,偏向技术的模型,而不是面向工程、面向应用的模型。虽然有模型的评估,但侧重点均在于对于模型性能的评价,侧重于分析,其分析结果不能被操作型环境使用