重要的事说三遍:数据处理很重要!数据处理很重要!!数据处理很重要!!!
对于传统机器学习而言,数据预处理是整个算法流程的起点,也是关乎后续处理的关键点,好的数据处理会使得后续的特征工程、算法测试事半功倍。
好了,正题开始,今天使用的数据是某竞赛的一份训练数据,文件内容如下:
训练集数据
这里分享一个知识点:csv文件包含中文读取如何不乱码?
步骤如下:
1:csv文件用txt打开,另存为原文件,编码选择UTF-8
2:用pandas读取时设置为utf-8编码格式
pandas文件读取
好了,现在数据已经读取了,现在我们看一下数据的基本信息:
数据统计信息
从统计信息可看出共有25497条数据,13个字段,其中有些字段有缺失值,这个需要在后期做特征工程时进行处理。
数据分布信息
从该数据分布可以看出,其中temperature算法要预测的目标,其它的都是自变量。
然后我们看一下各个自变量的趋势图:
从上述各个变量的趋势图可以看出内、外压强有很多突变值,应该是异常值,需要注意这两个变量的处理。
然后我们再看下自变量与因变量的关系是否有明显相关性:
从上述关系图可看出,室外温度与因变量具有很强的正相关,湿度与因变量有很强的负相关,而压强有很多异常值并且暂时看不出关联性,需要进行异常处理后再观察,或者想省事的话就暂时抛弃压强因素,到后续其它都优化后再测试压强是否能提示训练效果。
好了,本文暂时就写这么多吧,主要是对数据进行一些基本分析,以便对数据有个整体了解,方便后续的特征处理和算法设计,后续会进行进行数据的进一步分析处理,敬请关注哈~~~