机器学习之数据分析

重要的事说三遍:数据处理很重要!数据处理很重要!!数据处理很重要!!!

对于传统机器学习而言,数据预处理是整个算法流程的起点,也是关乎后续处理的关键点,好的数据处理会使得后续的特征工程、算法测试事半功倍。

好了,正题开始,今天使用的数据是某竞赛的一份训练数据,文件内容如下:

训练集数据

这里分享一个知识点:csv文件包含中文读取如何不乱码?

步骤如下:

1:csv文件用txt打开,另存为原文件,编码选择UTF-8

2:用pandas读取时设置为utf-8编码格式

pandas文件读取

好了,现在数据已经读取了,现在我们看一下数据的基本信息:

数据统计信息

从统计信息可看出共有25497条数据,13个字段,其中有些字段有缺失值,这个需要在后期做特征工程时进行处理。

数据分布信息

从该数据分布可以看出,其中temperature算法要预测的目标,其它的都是自变量。

然后我们看一下各个自变量的趋势图:

从上述各个变量的趋势图可以看出内、外压强有很多突变值,应该是异常值,需要注意这两个变量的处理。

然后我们再看下自变量与因变量的关系是否有明显相关性:

从上述关系图可看出,室外温度与因变量具有很强的正相关,湿度与因变量有很强的负相关,而压强有很多异常值并且暂时看不出关联性,需要进行异常处理后再观察,或者想省事的话就暂时抛弃压强因素,到后续其它都优化后再测试压强是否能提示训练效果。

好了,本文暂时就写这么多吧,主要是对数据进行一些基本分析,以便对数据有个整体了解,方便后续的特征处理和算法设计,后续会进行进行数据的进一步分析处理,敬请关注哈~~~

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容