1.工具和环境
语言: python3.6
系统:win7 64位
数据库:MongoDB
IDE:IPython notebook
2.数据加载、存储与文件格式
pandas 提供了一些用于将表格型数据读取为DataFrame对象的函数。
首先看一个以逗号分隔的CSV文本文件:
!type user_info.csv #如果是UNIX系统,要把'!type'改成'!cat'
,用户,粉丝,答题,专栏文章,个人简介
0,张佳玮,1429532,3060,730,公众号:张佳玮写字的地方
1,李开复,1015013,107,2,
2,黄继新,810619,782,95,和知乎在一起
3,周源,777991,339,8,知乎 001 号员工
4,yolfilm,768913,1619,0,发,然后禁,则扞格而不胜。
5,丁香医生,759397,243,56,身体上的问题,来问丁香医生
6,张亮,721254,1437,110,birth of cool
7,张小北,667155,1337,66,电影爱好者
8,李淼,662989,1172,191,我拉黑的 都是智力发展有问题的
9,朱炫,653648,205,52,闷骚而近妖 微博:大师兄_朱炫
import pandas as pd
df = pd.read_csv('user_info.csv', encoding = 'gb18030') #这里出现了一点中文编码的问题,所以我指定了解码方式。
df
再试一下用read_table,需要指定分隔符
df = pd.read_table('user_info.CSV', sep = ',', encoding = 'gb18030')
df
效果看起来跟read_csv完全一样。
注意到这里出现了一栏Unnamed: 0,应该是CSV文本文件开头的逗号引起的,我们可以用del 把这多余的一列删除。
del df['Unnamed']
df
成功的删除了不要的‘Unnamed’。
将数据写出到文本格式
df.to_csv('data.csv')
!type data.csv
,用户,粉丝,答题,专栏文章,个人简介
0,张佳玮,1429532,3060,730,公众号:张佳玮写字的地方
1,李开复,1015013,107,2,
2,黄继新,810619,782,95,和知乎在一起
3,周源,777991,339,8,知乎 001 号员工
4,yolfilm,768913,1619,0,发,然后禁,则扞格而不胜。
5,丁香医生,759397,243,56,身体上的问题,来问丁香医生
6,张亮,721254,1437,110,birth of cool
7,张小北,667155,1337,66,电影爱好者
8,李淼,662989,1172,191,我拉黑的 都是智力发展有问题的
9,朱炫,653648,205,52,闷骚而近妖 微博:大师兄_朱炫
重新将DataFrame写出到文本文件中。
此外,还有Json数据。
通过json.loads()将JSON数据转化为python形式,json.dumps()则将python形式转化为JSON数据。