数据清洗是指对提供的原始数据进行一定的加工,使得其方便后续的特征抽取。其与特征抽取的界限有时也没有那么明确。常用的数据清洗一般包括:
◆ 数据的拼接
◇ 提供的数据散落在多个文件,需要根据相应的键值进行数据的拼接。
◆ 特征缺失值的处理
◇ 特征值为连续值:按不同的分布类型对缺失值进行补全:偏正态分布,使用均值代替,可以保持数据的均值;偏长尾分布,使用中值代替,避免受 outlier 的影响;
◇ 特征值为离散值:使用众数代替。
◆ 文本数据的清洗
◇ 在比赛当中,如果数据包含文本,往往需要进行大量的数据清洗工作。如去除HTML 标签,分词,拼写纠正, 同义词替换,去除停词,抽词干,数字和单位格式统一等。
数据分析
处理的数据是交易数据 eg: 用户订单 用户存取款 用户的通话短信
使用的少量数据
采样分析 数据量过大可采用采样分析
机器学习
处理的数据是行为数据 eg: 搜索历史 点击历史 浏览历史 评论
使用的海量数据
数据分析是对历史的回顾
eg: 过去3年,前100名优质客户 和年初计划相比,上个季度销售额如何。。。。
机器学习是对未来的预测