表观处理
去重:将重复的数据去除掉
合并:将不同的数据表合并在一起,组成‘大’维度表
深入处理
缺失值:该部分处理是整个数据挖掘过程都需要反复考虑的事;根据特征缺失值占比多少,决定是填充还是直接删了;如果填充,可以填充平均值,中值等等;或者将其看成测试集利用模型进行填充。
异常值:首先对数据的分布有大致的了解,认为的异常值不一定是异常值,明确对异常值的划分。对于确认的异常值,可以按照缺失值对待处理,也需要分析异常值,或者极端值出现是否有规律;
逻辑值:筛选更改逻辑上有错误的值。
连续特征离散化:根据建立的模型分情况处理。
规范化:将数据映射到0-1之间;-1到1之间;均值为0,标准差为1;
了解背景数据处理
降维:pca,lda,lle等
采样:分层采样,过采样,欠采样
特征合并:异名同义,异名同类聚合
筛选特征:利用rf,人工等选择重要特征
特征转换:将某特征属性转为各特征。