用MongoDB进行数据整理(一)数据提取基础
1.MongoDB简介
数据预处理 Data Wrangling:数据预处理是一个获得、提取、清洗和存储数据的过程。只有在完成这些过程之后,一切的分析才有意义。比如你对华尔街做量化分析,你想建一个自动交易模型,你首先要确保你的模型基于可靠的数据。
2.评估数据质量
一般来讲,我们不应该信任数据。数据是从哪里来的?要么是人手动打出来的,要么是来自人编写的程序,要么是这两者的结合。这个过程中总是涉及到人,所以可能会给我们带来问题。
比如某些excel文件中可能有些行列缺失了相应的值。
比如excel中日期的格式
3.表格格式 DataSet
在表格数据中,每行(row)代表一个数据项(item)。每项可以有一个或者多个字段,每列(column)代表一个不同的字段(field)。
在大多数表格数据中,第一行通常是这些字段的标签。
每一个单元格(cell)包含某一个字段的值(value)。
4.CSV格式
表格数据最常见的发布方式是CSV的数据格式。Python中包含了CSV模块,可以处理CSV数据。
CSV文件的第一行包含所有字段的标签。
CSV每行文本都是呈现为行,字段被分隔符隔开,这个分隔符(delimeter)通常是逗号(comma)。
5.练习解析CSV文件以及CSV模块的使用 CSV--->Dict
代码如下:https://github.com/mcdullsnow/mongoDBStudy/blob/master/1.py
6.XLRD简介
xlrd安装:pip install xlrd
如何以程序化模式处理Excel文件?Python中的XLRD模块可以处理老式的XLS格式和新的XLSX格式的Excel文件。利用这个模块我们可以载入excel工作簿中的所有数据,并在Python程序中对其进行各种处理。
我们应该怎样将Excel文件中的数据完全读取成python列表并对其进行处理。我们要如何在Excel文件中,利用XLRD模块处理行、列和单元格。最后,还要讲一下日期,主要是因为日期在XML中显示的形式各有不同。
7.JSON简介
习题集
1.