数据探索和预处理。
注意异常值
注意空值。
把绝对值替换成ratio
计算变量随时间的变化
变量之间的先行组合。
对变量进行操作,取log,取根号
离散变量数值化。
修改单位,
年龄离散化
经纬度坐标转换
创建变量
出生日期可以转化年龄。
均值,方差,最大,最小,最近的频率
使用频率,
删除变量
删除共线性变量,在线性模型中要去除共线性
删除对于结果不想关的变量
降维PCA.
变量类型
1.连续型变量
通过分桶变为离散值
2.离散型变量
变量检测
1.空值检测,异常值检测
2.年龄,人口收入的数据的量级
3.连续变量离散化
1.取1%,10%,25%,50%,75%,90% 99%分位数,通常1%和99%分位数都会被排除,由于太极端。
2.确定变量没有起相同。
3.年龄这些值有范围,需要确定树脂是否在一定范围
Table 3.2 Contingency table. (frequency in thousands)
<20 years
20–64 years
!65 years
TOTAL
TOTAL
15 150
34 250
8 858
58 258
DETECTION OF RARE OR MISSING VALUES 45
Single Married Widowed Divorced
15 144 100% 6 0% 0 0% 0 0%
10 935 32% 20 048 59% 844 2% 2 423 7%
696 8% 4 755 54% 3 079 35% 328 4%
26 775 46% 24 809 43% 3 923 7% 2 751 5%
确定缺失原因
是由于偶然缺失还是不完全的观测。如果是不完全的观测,则会导致分析的偏差。
1.不使用该变量,或着用一个相似的变量代替
2.用统计方法填充该值,均值,或中位数,回归,聚类,活用模型预测
3.把缺失值当成一列变量。
当缺失的比例超过15%的时候不应该使用2,3方法。
检测异常值
异常值不一定是极端值,极端值也不一定是异常值。要充分理解数据才能对此进行区分。
是变量的原因还是样本的原因
异常值通常出现的情况
1.固有的日期,不可能出现,
2.bussiness 出现为private
3.单位不统一。
4.性别有多种值
5.职业从业不更新,一直显示学生
6.电话号码格式不正确
检测异常值的方法
1删除这个观测,查看是分布
2把该变量删除,查看该变量是否需要放进去。
3.把这个变量的异常值换成正常值。
1.如果该异常值的范围不在正常范围,应删除
2.如果这个变量会导致结果变差,则应该删除该变量
3.如果该变量只有几个异常值,那应该想办法消除异常值的影响
4.如果变量有大量不正确的值,那么应该避免使用该变量
5.如果该变量特征很强,而且包含少量的异常值,可以把他们替换为空值,然后单独作为一个变量