机器学习之数据分析

重要的事说三遍：数据处理很重要！数据处理很重要！！数据处理很重要！！！

对于传统机器学习而言，数据预处理是整个算法流程的起点，也是关乎后续处理的关键点，好的数据处理会使得后续的特征工程、算法测试事半功倍。

好了，正题开始，今天使用的数据是某竞赛的一份训练数据，文件内容如下：

训练集数据

这里分享一个知识点：csv文件包含中文读取如何不乱码？

步骤如下：

1：csv文件用txt打开，另存为原文件，编码选择UTF-8

2：用pandas读取时设置为utf-8编码格式

pandas文件读取

好了，现在数据已经读取了，现在我们看一下数据的基本信息：

数据统计信息

从统计信息可看出共有25497条数据，13个字段，其中有些字段有缺失值，这个需要在后期做特征工程时进行处理。

数据分布信息

从该数据分布可以看出，其中temperature算法要预测的目标，其它的都是自变量。

然后我们看一下各个自变量的趋势图：

从上述各个变量的趋势图可以看出内、外压强有很多突变值，应该是异常值，需要注意这两个变量的处理。

然后我们再看下自变量与因变量的关系是否有明显相关性：

从上述关系图可看出，室外温度与因变量具有很强的正相关，湿度与因变量有很强的负相关，而压强有很多异常值并且暂时看不出关联性，需要进行异常处理后再观察，或者想省事的话就暂时抛弃压强因素，到后续其它都优化后再测试压强是否能提示训练效果。

好了，本文暂时就写这么多吧，主要是对数据进行一些基本分析，以便对数据有个整体了解，方便后续的特征处理和算法设计，后续会进行进行数据的进一步分析处理，敬请关注哈~~~

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。