1.读取数据(pandas)
读取csv、xls文件等
2.数据预处理、分析(pandas)
- 预处理工作:
缺少列头、分割字段、索引号处理、删除行列、处理空值、处理重复行、日期处理、文件保存等。
- 分析:
条件过滤、排序、分类汇总等。
3.数据分析
特征工程(sklearn.preprocessing):
- 使用Sklearn预处理模块:
preprocessing
- 数据归一化正则化(preprocessing.normalize():
作用:把数据收敛到[0,1]之间
- 数据标准化(preprocessing.scale())
作用:缩放处理 均值为0,方差为1
4.挖掘(sklearn(机器学习)、numpy(数组矩阵)、metrics(模型效果验证)):
- 设置一个数据集X 【不能是一维数组】,和一个标签集y,
- 选取模型(选择算法:回归、分类、聚合、降维):
model=模型()
- 模型拟合:
model.fit(x,y)
- 根据x值,预测y值:
print“y_predicted=”,model.predict(x)
后记:
有需要的朋友可以搜索微信公众号:【知音库】
同时也是为了鼓励自己,坚持写笔记,希望可以共同进步。