1. 认识CSV格式
打开方式
- 默认excel/numbers表格
- 记事本:逗号分隔列
- sublime(使用大文件):逗号分隔列
- R语言读取:数据框,可赋值,变量名与文件名无必然联系,对数据框修改不会同步到表格文件
2. 认识分隔符
- 常见:逗号,空格,制表符(\t,Tab)
- CSV = Comma Separated Values,TSV = =Tab Separated Values
- 后缀名没有意义,本质都是纯文本
jimmy:电脑上的文件只有两种,文本与非文本
3. 表格文件读入R语言,成为数据框
read.csv() # 通常读取CSV格式
read.table() # 通常用于读取txt格式
test = read.csv('ex3.csv') # 文件名均需引号
- 读取可能会失败:error或跟想象中不一样,若失败需要指定一些参数
4. 数据框导出,成为表格文件
write.csv() # 存储为CSV格式
write.csv(test,file = 'example.csv')
#test:要导出数据框的变量名,example.csv:导出的文件命名
write.table() # 存储为txt格式
write.table(test,file = 'example.txt')
- 读取-编辑修改-导出
- 不要覆盖原文件
5. R特有的数据格式:Rdata
- R语言特有数据存储格式,无法用其他软件打开
- 保存的是变量,不是表格文件,不涉及赋值
- save()保存,load()加载
save(test,file = 'example.Rdata') # 无论命名如何,均是Rdata文件
load('example.Rdata') #不用赋值,不用写 x = load('example.Rdata')
6.常见错误:找不到文件
- 文件没有存放于工作目录下
- 拼写错误
- 默认参数不适用于你当前读取的文件,也会报错
7. R语言能读取的文件格式
- 通用格式:csv,xls,txt,tsv,json,pdf,spss……
- 生信格式:fasta,fastq,bam,vcf,bed,gtf……
8. 用于读取/导出文件的R包
https://www.jianshu.com/p/4ea320c0dcc6
- 对于常见格式,可以先尝试import导入(其实import是根据fread函数写的);
- 如果失败,再用fread读取,最多是加个参数,理论上就可以成功;
- 如果还是不行,哈德雷大神写的read_*系列也不是吃素的,拿来试试。
- base包有点笨,但他参数多,更灵活,可以作为一个选择。