csvkit安装
- 使用pip安装:运行以下命令
sudo pip install csvkit
- 在wsl使用pip安装,经测试不能正常识别,故使用apt安装:运行以下命令
sudo apt install csvkit
csvkit使用
- 将excel文件转换为csv:运行以下命令
in2csv data.xls > data.csv
- 将json文件转换为csv:运行以下命令
in2csv data.json > data.csv
- 屏幕打印csv列名:运行以下命令
csvcut -n data.csv
- 从data.csv获取由column_a,column_c两列构成的子文件new.csv:运行以下命令
csvcut -c column_a,column_c data.csv > new.csv
- 重新排列csv列,将顺序由1/2/3变为3/2/1,结果存储至new.csv:运行以下命令
csvcut -c column_3,column_2,column_1 data.csv > new.csv
- 获得列column_3中与字符串abc(可用正则表达式)匹配的行,结果存储至new.csv:运行以下命令
csvgrep -c column_3 -r "abc" data.csv > new.csv
- 将csv转换为json,结果存储至new.csv:运行以下命令
csvjson data.csv > data.json
- 统计csv中每一列的一些简单信息:运行以下命令
csvstat data.csv
- 数据类型Type of data: Number
- 包含空值Contains null values: False
- 唯一值数量Unique values: 200000
- 最小值Smallest value: 0
- 最大值Largest value: 199999
- 和Sum: 19999900000
- 平均数Mean: 99999.5
- 中位数Median: 99999.5
- 标准差StDev: 57735.171256
- 常见值Most common values: 0 (1x);2 (1x);3 (1x) ;4 (1x)
- 使用SQL语句查询,结果存储至new.csv:运行以下命令
csvsql --query "select name from data where age > 30" data.csv > new.csv
- 导入到数据库:运行以下命令
csvsql --db postgresql:///database --insert data.csv
- 从数据库提取数据,结果存储至new.csv:运行以下命令
sql2csv --db postgresql:///database --query "select * from data" > new.csv
csvkit进阶使用
- 通过fips列来连接两个csv表,结果存储至joined.csv:运行以下命令
csvjoin -c fips data1.csv data2.csv > joined.csv
- 将data.csv中total_cost列进行降序排序,结果存储至new.csv:运行以下命令
csvsort -c total_cost -r data.csv > new.csv
- 将两个csv表合并,一般为列数和列名相同,结果存储至region.csv:运行以下命令
csvstack data1.csv data2.csv > region.csv