认识数据-DataMining

一、数据对象和属性类型

数据集由数据对象组成;数据对象用属性描述。

数据对象:
    一个数据对象代表一个数据实体;
    又称为:样本、实例、数据点、对象;
    如果数据对象存放在数据库中,则称为 数据元组;
    就是说,数据库的行对应于数据对象,而列对应于属性;

属性:
    是一个数据字段,表示数据对象的一个特征。
    在文献中,属性、维(dimension)、特征(feature)、变量(variable)可以互换使用。
    维:一般用在数据仓库中;
    特征:机器学习文献更倾向于使用此术语;
    变量:统计学家更愿意使用此术语;
    属性:数据挖掘和数据库的专业人士倾向于使用的术语;

特征向量:用来描述一个给定对象的一组属性;又称属性向量;

属性类型:由该属性可能具有的值的集合决定;
    标称属性、二元属性、序数属性、数值属性;

标称属性:nominal attribute   /'nɑmɪnl/
    标称属性的值是一些符号或事物的名称,每个值代表某种类别、状态、编码;
    这些值不必具有有意义的顺序,并且不是定量的,也被称为 枚举(enumeration);
    这种属性的均值、中值是没有意义的;
    中心趋势度量使用 众数(Mode):该属性最常出现的值;

二元属性:(binary attribute)
    是一种只有两个状态的标称属性;1表示出现,0表示不出现;
    又称布尔属性,如果两种状态对应 true 和 false的话;
  对称二元属性:两种状态具同等价值,且携带相同的权重;例如性别gender。
  非对称二元属性:状态的结果不是同等重要;例如:新冠检测:阳性、阴性;

序数属性:ordinal attribute  /'ɔrdənl/
    其可能的值之间具有有意义的顺序评定,但值之间的差是未知的;
    用于记录不能客观度量的主观质量评估,通常用于等级评定;
    也可以通过把数值属性的值域划分成有限个顺序类别,把数值属性离散化而得到;
    中心趋势度量:众数 和 中位数(有序序列的中间值)表示,不能定义均值;

注:标称属性、序数属性都是定性的,仅描述对象的特征,而不给出实际的大小或数量,不是可测量的值;例如:0表示中杯,1表示大杯,2表示特大杯。(罗永浩:小杯是什么?)

数值属性:numeric attribute    /nu'mɛrɪkl/ 
    是定量的,可度量的量,用整数或实数表示;
    I、区间标度属性 interval-scaled:用相等的单位尺度度量,区间属性的值有序,允许比较和定量评估值之间的差。例如温度,没有真正的零点,0℃不表示没有温度,不能说10℃比5℃温暖2倍;即不能用比率谈论这些值;
    II、比率标度属性 ratio-scaled:是具有固有零点的数值属性;可以说一个值是另一个值的倍数。例如开氏温度、速度、年龄、高度等;

另:机器学习领域的分类算法通常把属性分成:离散的、连续的;
    离散属性:具有有限或无限个可数的值;可以用整数 或 不用整数 表示;
    连续属性:连续属性一般用浮点变量表示,值是实数;

二、数据的基本统计描述

中心趋势度量:度量数据分布的中部或中心位置;即属性的值大部分落在何处。
    均值、中位数、众数、中列数;

数据散布度量:数据如何分散的,识别离群点;
    极差、四分位数、四分位数极差、五数概括、盒图、方差、标准差;

基本统计描述可视化:分位数图、分位数-分位数图、直方图、散点图、线图、饼


1、中心趋势度量:

I、均值 mean:数据集『中心』最常用、最有效的数值度量。适用于对称数据集;
    加权平均:每个值可以与一个权重Wi相关联,权重反应对应值的意义、重要性或出现的频率。
    截尾均值 trimmed mean:丢弃高低极端值后的均值;计算均值前去掉高端和低端的2%;

II、中位数 median:有序数据值的中间值,把数据分为高低两半的值;适用于非对称数据集;
    中位数的近似值:当观测的数量很大时,中位数的计算开锁很大,用近似值公式计算;

III、众数 mode:集合中出现最频繁的值。定性定量属性均可有众数;
    单峰数据集 unimodal:最高频率对应一个值;
    多峰数据集 multimodal:最高频率对应两个或更多值 ;

IV、中列数 midrange:是数据集最大和最小值的平均值;

对称数据分布的单峰数据集,均值、中位值、众数是相同的中心值;
正倾斜分布的数据集,众数出现在小于中位数的值上;
负倾斜分布的数据集,众数出现在大于中位数的值上;


2、度量数据散布:

I、极差 range:最大值 max()与最小值Min()之差;

II、分位数 quantile:把数据分布划分为基本大小相等的连贯集合的数据点;
    二分位数:即中位数:把数据划分为高低两半;
    四分位数 quartile :是3个数据点,把数据分布划分为4个相等的部分,各四分之一;
    百分位数 percentile :把数据分布划分成100个大小相等的连贯集;

    四分位数极差 IQR :第一个四分位数Q1和第三个四分位数Q3之间的距离,是中间一半所覆盖的数据范围,是散布的一种简单度量。

III、五数概括 five-number summary、盒图 boxplot、离群点 
    对于倾斜分布,单个散布数值度量(例IQR)不是很有用;中心度量值不能把数据划分成大小相同的两半;因此用五个数来概括更完整的数据分布形状;
    五数概括:Mininum、Q1、Median、Q3、Maxinum;
                    最小值、四分位数Q1、中位数、四分位数Q3、最大值;
    盒图:体现了五数概括;
        盒的长度是四分位数极差IQR;
        中位数用盒内的线标记;
        盒外的两条线(胡须)延伸到最小和最大观测值;如果最高或最低值超过四分位数的1.5倍IQR时,则胡须扩展到1.5xIQR终止,剩下的值个别绘出;

IV、方差和标准差

指出数据分布的散布程度;
低标准差:数据趋向于非常靠近均值;高标准差:数据散布在一个大的值域中。
标准差(standard deviation)σ(西格玛) 是方差 (Variance)σ^2(西格玛平方)的平方根;
一个观测一般不会远离均值超过标准差的倍数,是数据集发散的很好指示器。


3、数据的基本统计描述的图形显示:

这些图形是助于可视化的审视数据,对数据预处理是有用的。

I、分位数图 quantile plot
观察单变量数据分布的简单有效的方法。
    显示所有数据:评估总的情况和不寻常的数据;
    显示分位数信息,按递增顺序排序的数据,可以基于分位数比较不同的分布;

II、分位数-分位数图 quantile - quantile plot:
III、直方图 histogram
IV、散点图 scatter plot:确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方法之一;用于观察 簇和离群点 或 考察相关联系的可能性。正相关、负相关、零相关;

综上所棕:基本数据描述(中心趋势度量、散布度量)和图形统计显示(分位数图、直方图、散点图)提供了数据总体情况的有价值的洞察。有助于识别噪声和离群点,所以对于数据清理特别有用。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335