1、查询/切换操作目录
Python有默认执行的操作目录,可以用以下代码进行操作目录切换。
import os
>>> import os
>>> os.chdir(路径) #切换操作目录
>>> os.getcwd() #获取当前的工作目录
2、路径的表达方式
三种:
1. ”c:\\path\\data.txt” #双斜杠
2. r”c:\path\data.txt” #用r,就直接正常复制路径就可以。
3. “data.txt” #如果文件就在当前工作目录下,直接写文件名就可以。
3、文件读取
(1) open 和 withopen
open()的操作如下:
file_path = ’c:\\path\\data.txt‘
f = open(file_path,'r')
print (f.read())
f.close() #open操作以后,一定要close,这是跟withopen最大的区别
withopen()的操作如下:
file_path = ’c:\\path\\data.txt‘
withopen(file_path,'r') as f: #记住此处要有冒号
print (f.read())
推荐使用 withopen 方法。
(2)read() 、readline() 和readlines()
read():
该函数会一次性读取文件的全部内容,如果能确保文件的大小,自然可以。但若文件过大,内存就爆了(如果文件大小>2倍内存则有问题),所以,可以反复调用read(size)方法,每次最多读取size个字节的内容。如果数据是中文,由于一个中文会占多个字节,故read(size) 部分会乱码.
返回的是str。
readline():
该函数每次只读取一行内容,返回的也是str。
readlines():
可以一次读取所有内容,并按行返回list。所以,应该它是最常用的。readlines(数字),则不知道表示什么,以后再研究。
(3)利用pandas读取数据(主要采用的方法)
包括read_csv、read_table、read_excel、read_sql等,但是没有read_txt,txt文件一般就用read_table读取了。
基本操作:
import pandas as pd
data = pd.read_table('data.txt') #读取数据,默认将第一行作为标签
data = pd.read_table('data.txt',names=['miles','times','p','likes']) #如果数据没有变量名,需要添加,则使用names方法。
data.head() #显示数据的前五行
主要参数设置介绍:
sep 用于设置数据分割,在read_table中默认的是'\t',空格;在read_csv中默认是',',逗号
header ,int or list of ints,表示选择第几行作为表头,如果是第n行,则前面n-1行数据去掉。如果数据中没有变量名,可以写为header=None,则把所有的行都作为数据。
names 用于设置变量名,具体用法参考上面,如果不设置,默认第一行。
还可以采用.columns来为设置变量名,如
df.columns = ['a','b','c','d']
本文只介绍了常用的一些函数,更具体的可以参考:pandas关于数据输入输出I/O的官方说明文档,各种函数和变量解释更为详细。