特征工程-数据分类

特征工程

将数据转换为能更好地表示潜在问题地特征, 从而提高机器学习的性能。

定量数据和定性数据

定量数据本质上是数值,应该是衡量某样东西的数量。

定性数据本质上是类别,应该是衡量某样东西的性质。

有时数据可以同时是定量和定性的。例如餐厅的评分(1~5星)虽然是数,但是这个数也可以代表类别。但是如果星级是浮点型, 那么该属性就是定量。

以旧金山做不同工作的薪资,来分析。

数据

数据缺失度查看方法:info() 和 isnull().sum()

查看数据缺失

describe()函数可以查看一些定量数据的描述性统计。但是一些定性数据是整数表示的变量,也会被被统计,这种时候需要做一些处理, 另外一些数据用string表示,比如美元$1, 对这种格式用map(lambda x: x.replace('$', '')) 

describe函数

在以上的分类上,进行更一步的细分,分为定类等级,定序等级,定距等级,定比等级。

定类等级

是数据的第一个等级,其结构最弱。这个等级的数据只按名称分类。例如血型(A, B, O和AB型),动物物种和人民等。

在这个等级上,不能执行任何定量数学操作,例如加法和减法。可以通过value_counts()进行统计个数。

计数条形图
饼图

定序等级

定序等级在定类等级上进一步进行探索的方法。添加了额外属性。

1. 定序等级可以自然排序

2. 可以进行比较

例子包括:考试成绩(A,B,C,D,F)

可以执行的数学操作:中位数和百分数

定距等级

在定类和定序等级的基础上更进一步, 定类和定序等级都是定性数据。即使其内容是数,也不代表真实数量。在定距等级,摆脱了这个限制,开始定量数据。定距等级,不仅可以排序,而且值之间的差异也是有意义的。可以进行加减.

定比等级

定比等级处理的也是定量数据。这里不仅继承了定距等级等级的加减运算,而且有一个绝对零点的概念,可以做乘除运算。

100元人民币是50元的俩倍

反例:

温度是属于定距等级,而不是定比等级,因为100度比50度高俩倍的说法是没有意义的, 并不合理。因为摄氏度和华氏度都没有真正的零点。

回到旧金山的工资数据,可以看到Biweekly High Rate列处于定比等级,因而可以进行新的观察。先看一下最高工资:

最高工资
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 专业考题类型管理运行工作负责人一般作业考题内容选项A选项B选项C选项D选项E选项F正确答案 变电单选GYSZ本规程...
    小白兔去钓鱼阅读 9,050评论 0 13
  • Sublime Text 3 快捷键总结 选择类 Ctrl+D 选中光标所占的文本,继续操作则会选中下一个相同的文...
    木头的男人阅读 239评论 0 2
  • 1.获取ISO文件 CentOS官网下载 2.安装VMWare VMWare官网链接 3.挂载ISO 问题一: 无...
    苍山落暮阅读 247评论 0 0
  • 台灯下看书眼睛一直比较费劲,刚刚把大灯打开,发现眼睛一下子轻松了很多,这才开始在大灯下看书。 早上上班的时候遇到一...
    112233D阅读 217评论 0 0
  • 台风把楼后的树刮得七倒八歪,群里有人说请物业处理一下,却并未有人理会,前日在小区路遇业委会主任,与他说了此事,没想...
    紫微妈咪阅读 111评论 0 1