刚开始,我对于数据重构的概念还不太熟悉,查阅了百度上的相关资料,发现其实就是数据从一种几何形态到另一种几何形态,或者说是数据从一种格式到另一种格式的转换,以实现空间数据在结构、格式、类型上的统一,多源和异构数据的联接与融合。
在本次课程的打卡中,首先进行的就是数据的合并,学到了contact方法、DataFrame的join和append方法以及Pandas的Merge方法和DataFrame的append方法的联合使用。换种角度这里其实就是将数据以另外一种形式展示(Series形式),也就是刚开始说的数据重构了。
在进行完上述操作后,就要对数据进行一些统计方面的分析了,以此发现一些统计量的实际含义,其中学到的最重要的操作方法就是GroupBy机制了,下面浅谈自己对此方法的一些体会。在日常数据分析过程中,经常有分组的需求。具体来说,就是根据一个或者多个字段,将数据划分为不同的组,然后进行进一步分析,比如求分组的数量,分组内的最大值最小值平均值等。而这就可以由GroupBy来完成。
GroupBy的过程及其工作原理通常由三个阶段组成:
1)分组:将数据集分成多个组
2)用函数处理:用函数处理每一个组
3)合并:把不同组得到的结果合并起来
第一阶段,也就是分组阶段,根据给定标准,把Series或DataFrame等数据结构中的数据分成不同的组,分组标准常与索引或某一列具体的元素相关。
第二阶段也称为“用函数处理”,使用函数处理或者执行由函数定义的计算,为每组数组生成单一的值。
第三阶段为合并,把来自每一组的结果汇集到一起,合并成一个新对象。参考下面博客的链接,可以更好地理解相关过程。https://blog.csdn.net/FrankieHello/article/details/97272990