本文您将要了解:
1、数据由什么类型的属性或字段组成?
2、每个属性具有何种类型的数据值?
3、哪些属性是离散的?哪些是连续值的?
4、数据看上去如何?值如何分布?
5、有什么方法可以可视化地观察数据,以便更好地理解它吗?
6、能够看出离群点吗?
7、可以度量某些数据对象与其他数据对象之间的相似性吗?
例如给定温度属性,我们可以确定其均值、中位数、众数。这些是中心趋势度量,使我们了解分布的”中部“或中心。关于每个属性的这种基本统计量的知识有助于在数据预处理时填补缺失值、光滑噪声、识别离群点。分位数图、直方图和散点图都是显示基本统计描述的其他图形方法。
一、数据对象与属性类型
属性是一个数据字段,表示数据对象的一个特征。
1、标称属性:
一些符号或事物的名称。可以用数字符号代替,但并不是定量的。
2、二元属性:
一种标称属性,只有两个类别或状态:0或1,其中0表示该属性不出现,1表示出现。若这两种状态对应true或false,又称为布尔属性。若二元属性是对称的,意思是关于哪个结果应该用0或1编码并无偏好,如男或女。若二元属性是非对称的,我们常用1表示重要数据,如艾滋病阳性。
3、序数属性:
其可能的值之间具有有异议的序或秩评定,但相继值之间的差是未知的。如小中大、助教讲师副教授教授、不满意不太满意中性满意很满意。
标称、二元、序数属性都是定性的。
4、数值属性:
定量的,可度量的值,用整数或实数值表示。可以是区间标度的或比率标度的。
区间标度属性:用相等的单位尺度度量。如温度,时间等,其特点是不能用比率谈论这些数值,如不能说说10度是5度的2倍。没有绝对的零点,即0度不是“没有温度”,0年不表示时间的开始。
比率标度属性:具有固定零点的数值属性。如果度量是比率标度的,则可以说一个值是另一个倍数。
我们将属性分为标称、二元、序数和数值类型。可以用许多方法来组织属性类型,这些类型不是互斥的。
机器学习的分类算法将属性分为离散的或连续的,每种类型都可以用不同的方法处理。
二、基本统计描述
中心趋势度量:均值、中位数和众数
散布度量:极差、四分位数、方差、标准差和四分位数极差
图形显示:分位数图、qq图、直方图、散点图
中心趋势度可以度量数据分布的中部或中心位置,主要讨论均值、中位数、众数和中列数。
数据分散常见度量是数据的稽查、四分位数、四分位数极差、无数概括和盒图,以及方法和标准差。对于识别离群点,这些度量是有用的。
1、中心趋势度量:均值、中位数和众数
1)均值:
加权平均:
为了抵消少数极端值的影响,我们使用截尾均值(trimmed mean)。截尾均值是丢弃高低极端值后的平均。如可以对工资的观测值排序,并在计算均值前去掉高端和低端的2%。
2)中位数(median):
对于倾斜(非对称)数据,数据中心最好度量是中位数。
若N是奇数,中位数为有序集的中间值;若N是偶数,约定中位数是两值的平均值。
3)众数(mode):
一个、两个、三个众数的数据集合分别称为单峰的(unimodal)、双峰的(bimodal)和三峰的(trimodal)。
4)中列数(midrange):
数据集的最大值和最小值的平均数。
正倾斜的数据,众数出现在小于中位数的值上;负倾斜的数据,众数出现在大于中位数的值上。
2、数据散布度量:极差、四分位数、方差、标准差和四分位数极差
1)极差(range):
最大值与最小值之差。
2)分位数(quantile):
取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。
2-分位数是一个数据点,把数据划分为高低两半。2-分位数对应于中位数。
4-分位数是3个数据点,把数据划分为4个相等的部分,使每部分表示数据分布的四分之一。通常称为四分位数(quartile)。
100-分位数吧数据分为100个大小相等的连贯集。通常称为百分位数(percentile)。
中位数、四分位数、百分位数是使用最广的分位数。
第1个四分位数记作Q1,是第25个百分位数,它砍掉数据的最低的25%。第3个四分位数记作Q3,是第75个百分位数,它砍掉数据的最低的75%(或最高的25%)。
第1个和第3个四分位数之间的距离是散布的一种简单度量,给出被数据的中间一半所覆盖的范围,称为四分位数极差(IQR):IQR=Q3-Q1
对于描述倾斜分布,单个散布数值度量(如IQR)都不是很有用。
识别可以离群点的通常规则是:挑选落在第3个四分位数之上或第1个四分位之下至少1.5*IQR处的值。
3)五数概括(five-number summary):
由中位数、四分位数Q1和Q3、最小和最大观测值组成。按次序Mininum、Q1、Median、Q3、Maximum写出。
4)盒图(boxplot):
体现了五数概括:
盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR。
中位数用盒内的线标记。
盒外的两条线延伸到最小值和最大值。
仅当最高和最低观测值超过四分位数不到1.5*IQR时,胡须扩展到它们。否则,胡须在出现在四分位数的1.5*IQR之内的最极端的观测值终止,剩下的情况个别绘出。
5)方差(variance)和标准差(standard deviation):
3、图形显示
1)分位数图:
观察单变量数据分布的简单有效的方法。
2)分位数-分位数图(qq图):
对着另一个对应的分位数,绘制一个单变量分布的分位数。它是一种强有力的可视化工具,使得用户可以观察从一个分布到另一个分布是否有漂移。
3)直方图(频率直方图):
4)散点图:
是确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一。
散点图是一种观察双变量数据的有用的方法,用于观察点簇和离群点,或考察相关联系的可能性。
三、度量数据的相似性和相异性
我们拿到数据的数据几乎都是多字段属性的数据表,行代表对象,列代表属性,通常我们需要比较两个对象的相似性及差别才有意义,本节将介绍如何比较对象间的相似性和相异性。
有前面的介绍我们知道数据有多种类型,不同的数据属性有不同的处理方式。本节从标称属性的相异性、二元属性的相异性及相似性、数值属性的相异性、序数属性的相异性、混合类型属性的相异性、余弦相似性介绍不同数据属性的处理方法。
1、标称属性的近邻性度量
对于标称属性,两个对象属性相异即为1,相同即为0,相异性可以表示为:
其中m是相同的属性属性,p是所有属性数目
四个对象的相异矩阵可表示为:
混合属性中附相关例题。
2、二元属性的邻近性度量
若所有二元都被看做具有相同权重,其中q是对象i和对象j都取1的属性数。
对称的二元相异性:每个状态都同样重要。若对象i和j都用对称二元属性刻画,那么i和j的相异性为
非对称的二元相异性:每个状态不是同等重要的,如病理化验的阳性(1)和阴性(0)。两个都取1的情况比两个都取0的情况更有意义。因此都取0的情况被认为是不重要的,因此忽略:
非对称的二元相似性:我们用相似性来度量两个二元属性的差别,
sim(i,j)被称为Jaccard系数。
例题:
3、数值属性的相异性:闵可夫斯基距离
闵可夫斯基距离:
又称Lp范数,p就是这里的h
h=1,曼哈顿距离:
h=2,欧几里得距离:
4、序数属性的近邻性度量
将序数属性转换为数值属性,再进行归一化处理,之后与数值属性处理相类似。
5、混合类型属性的相异性
我们计算每一个属性的相异矩阵,并且排除掉非对称性属性和属性缺失值,对已有属性求平均
例题:
test-1、test-2、test-3相异性矩阵分别为:
由于不存在非对称二元属性和缺失值,因此求均值后得到相异矩阵为:
6、余弦相似性
从向量的角度出发,计算两向量之间的余弦,余弦值接近于1则相似性大。
常用在计算文本的相似性上。
例题:计算文档1和文档2的相似性
两文档相似度很高。
最后请回答开头的几个问题。
---本文知识点及例题出自《数据挖掘概念与技术》第3版 机械工业出版社