我们知道我想分析数据的话我们必须首先要有数据,那么数据从哪里来呢?一般就是使用爬虫采集或者直接从开源的数据网站下载后保存到相应的文件中去,然后我们在根据这些文件中的数据进行分析。
那么在 Python 中如何对文件中的数据进行获取并分析呢?有两种方式,一种是:用我们常用的 open 打开文件,然后去操作,但是效率比较低;那么接下来我们就用第二种方式:使用 Pandas 对数据的读取即导入文件中的数据 然后分析。
一、使用 Pandas 读取 CSV 格式的文件
# 1 导入 csv 文件
i = pda.read_csv("C:/Users/Administrator/Desktop/myfiledata/blog.csv",encoding="gbk") #由于文件中有中文,因此必须编码
print(i.describe()) # 统计分析
文件的数据格式 及 运行结果 分别如下:
二、Pandas 读取 xlsx 格式的文件
# 2 导入 excel 文件 需要导入模块: pip3 install xlrd
j = pda.read_excel("C:/Users/Administrator/Desktop/myfiledata/score.xlsx")
print(j)
print(j.sort_values(by="分数", ascending=False)) # #根据“分数”降序排列
数据文件 及 运行结果 分别如下:
三、Pandas 导入 html 文件 先安装相关的依赖库:pip install html5lib、pip install beautifulsoup4
k = pda.read_html('C:/Users/Administrator/Desktop/myfiledata/abc.html') # 本地
print(k) # 输出
print("-------------------------------------------")
l = pda.read_html('https://book.douban.com/') # 网络
print(l) # 输出
本地数据文件 及 运行结果 分别如下:
四、导入 文本文件
n = pda.read_table("C:/Users/Administrator/Desktop/myfiledata/lcy.txt",encoding="gbk") # 有中文的话记得编码
print(n)
数据文件 及 运行结果 分别如下:
好了,常见的文件格式导入方式基本上都用上了,嘿嘿,接下来我们就可以愉快的进行数据分析咯。。。