R语言_文件读取与保存

把外部数据读入R语言里以及在R语言处理的数据导出，怎么操作以及注意哪些细节：

1.认识csv格式

2.认识分隔符

3.将表格文件读入R语言，成为数据框

4.将数据框导出，成为表格文件

5.R语言特有的数据的类型：.Rdata

6.文件读写部分（重点）

7.进阶：可读入R语言的常见生信数据形式

8.进阶：读取文件的其他常用R包

1.认识csv格式

打开ex3.csv文件（生信技能树数提供）

windows电脑如果没有设置，通常不会显示文件后缀名。

设置：打开文件所在的文件夹--查看前方框打钩--文件扩展名前方框打钩，显示文件后缀，电脑知识一定要加强，融会贯通。

来自生信技能树小洁老师的课件图

1.1 csv打开方式（一）：默认使用excel

在里excel自动加上横线和竖线，在渲染效果。

excel打开csv文件

1.2 csv打开方式（二）：记事本打开

在excel里有竖线的地方在记事本里变成用逗号隔开。分隔符为逗号，这是csv的庐山真面目，其实csv就是纯文本文件。

记事本打开csv文件

1.3 csv打开方式（三）：sublime软件打开（更适用大文件）

方便打开比较大的纯文本文件，记事本如果打开几百MB的文件会卡，但是sublime不会，而且sublime有代码高亮的功能，以后慢慢探索。

sublime打开csv文件

1.4 csv打开方式（四）：R语言读取

a=read.csv("ex3.csv")
##输入a=read.csv("")时，光标在引号中间使用tab键补全，一定要加引号，不然会出现找不到对象，找不到对象（object）通常有两种情况：该加引号不加，或该赋值时不赋值。

R语言读取与前面3种方式是不一样的：

ex3.csv是真实存在的文件，R语言赋值的变量a不是电脑上一个真实文件，R语言内部的变量和电脑上的文件不是一码事，分清环境里的变量和工作目录下文件的关系。

读进R语言，就是个数据框，可赋值，变量名与文件名无必然联系。

表格文件读入到R语言里，就是个数据框，对数据框进行的修改（赋值，取子集等）不会同步到表格文件。

2.认识分隔符

CSV文件本身没有竖线，用excel打开，为什么会显示横线和竖线，是通过分隔符去识别的。

CSV文件官方标配常见：逗号，空格，制表符\t（用tab键摁出来的是制表符，在代码里显示的是\t）

CSV的标准分隔符是逗号，也叫逗号分隔制文件：

CSV = Comma Separated Values

TSV以tab键分隔符：

TSV = Tab Separated Values

纯文本文件的后缀没有意义，只是约定俗成（有特例或是不守规则，不要对后缀太依赖）。后缀起提示作用，不起决定性作用。

既然后缀不起决定性作用，但是为什么还要加后缀，因为在windows电脑上有些软件会根据后缀去用什么软件打开。在编程语言世界里，后缀没那么强，只要文件内容是符合规则的一个方方正正，有分隔符，叫什么名字不是关键。

3.将表格文件读入R语言，成为数据框

3.1 read.csv()--通常读取csv格式

3.2 read.table()--通常用于读取txt格式

以下是非常重要的三个参数，有时候不是三个参数都一起用，用R语言读进来的文件，与excel打开原表格对比，选择合适的参数。
header = T,
check.names = F,
row.names=1

read.csv()
read.table()
# header = T,
#check.names = F,
#row.names=1
##实战中，参数选不对，导致数据框或是表达矩阵的列名不对，很难进行一些操作。

两者是同宗同源的函数，有些参数是相同的，但是默认参数设置可能有所不同。read.csv()是由read.table()演变而来，比较适合读取常规的csv文件，它的参数根据常规的csv文件习惯调一下默认参数，比如说把默认的分隔符就设置为逗号，做了适合读取csv的设置。

test = read.csv("ex3.csv")
class(test)

再次强调变量名称和文件名称的区别：

文件名称写的话永远在实际参数的位置上，并且带着引号。变量名称一般都是在等号前面或是正常写在代码里，不会和引号一起出现。变量名称是一个数据，而文件名称是真实在电脑存在。

直接读取csv如果失败，需要指定一些参数。

read.csv()是一个函数，函数就有默认参数，默认参数与读入表格对不上号的地方，读取出来比较变扭，比如行名和列名没有正确识别出来。

4.将数据框导出，成为表格文件

导出是指把R语言里的一个数据框导出去，变成电脑上的一个文件。

4.1 csv格式：write.csv()

write.csv(test,file="example.csv")
##test为要导出的数据框的变量名；example为给导出的文件命名，记得写上后缀csv
##运行完工作目录下就多了一个文件，可以进行发送。

4.2 txt格式：write.table()

write.table(test,file="example.txt")
##test为要导出的数据框的变量名；example为给导出的文件命名，记得写上后缀txt

读取--编辑修改--导出，不要覆盖原文件：

读取的文件是外部文件，不是自己做的，原始文件一定要保留，如果原文件丢了，代码出问题，没法追根溯源，所以导出的文件另取一个名。

一定要把原始数据保存好，运行的代码也保留。

5.R语言特有的数据的类型：`.Rdata`

.Rdata文件里可以存放变量，而且不止一个变量，也是电脑里真实存在的文件，放在工作目录下，用load就可以加载。

.Rdata是R特有的数据储存格式，无法用其他软件打开，只能用R语言打开。
保存的是变量，不是表格文件。凡是在R语言环境能起名的，占有一席之地的叫变量，可以存到.Rdata里，整存整取。

5.1 用save()--保存

save(test,file="example.Rdata")
##test只是一个变量名，可以以逗号为分隔符，添加多个变量，即可保存多个。保存多个变量，file=是不能省略的

5.2 用load()--加载

load("example.Rdata")
##使用时可以加载，但是保证save的文件在在工作目录下。
##干干净净地加载，直接load就好，不用赋值

5.3 Rproject的组织形式

脚本：.R

数据：.Rdata

表格：.txt或.csv

常见报错：找不到文件

原因1：文件没有保存放于工作目录（Rproject）下。

原因2：拼写错误（用tab自动补齐）。

默认参数不适用于你的当前读取的文件，也会报错

6.文件读写部分（重点）

6.1 读取ex1.txt

ex1.txt文件为生信技能树提供。

ex1=read.table("ex1.txt")
##读进来是第一步，从环境变量里点开看文件是否正常
ex1[2,4]
#[1] "45351"
##本来应该是数值型，现在是字符型，用Excel打开原文件对比。
##列名没有正确识别的话，一列是一个向量，一个向量只有一种数据类型，如V1列有id，之后都是数值型，数值型变成字符型

?read.table
##在帮助文档里一个个去查看，默认设置header = FALSE,不给识别列名，修改默认参数。
read.table("ex1.txt",header = T)
#修改header = T，被正确识别，归位很重要。
ex1[2,4]
#[1] 31872,数值型。

读完后检查，用excel打开原文件，第一行是应该是列名，第二行才是正式内容，Excel里不做这个区分，R语言里，列名和每一列里正式内容是要区分开的，问题是该有的列名没有放在正确的位置上。

用R语言正确读入格式应该和用excel打开的格式一样，仔细观察行列的位置。如果不正确，修改函数的实际参数，或是默认值。

6.2 读取ex2.csv

ex2.csv文件为生信技能树提供。

read.csv("ex2.csv")
##初步读进来，在环境里把变量点开，再用Excel打开对比，观察是否有异常
##异常的地方：1.第一列x，2.列名的连接符号。R语言读取时，没有识别第一行是列名，填充一个x

?read.csv
##查看帮助文档的介绍说明，查看是哪一项引起的，可以多试试。
ex2 = read.csv("ex2.csv",row.names = 1)
##row.names = 1，把第一列识别成行名的意思，# row.names = 1,永远设置为1，。
##串改列名，.和-是不一样的。R语言改掉是因为不允许有特殊字符的存在，在帮助文档里一个个去找参数。
##check.names = TRUE为默认，检查行名和列名里有没有特殊字符，有的话就被改掉，强制把-改为.
ex2 = read.csv("ex2.csv",row.names = 1,check.names = F)
##在环境里点开ex2，显示正常
a=as.matrix(ex2)
##表达矩阵，表达矩阵的内容为数值，把数据框ex2为矩阵
a[1,2]
#[1] 13.67818,如果不设置row.names = 1，虽然转变为矩阵，但是里面的内容是字符型，没法作图和计算

用R语言读完后，用excel打开原始文件对比，找出不一样的点，查看帮助文档，试着设置参数

6.3 读取soft.txt，赋值给soft

soft = read.table("soft.txt")
##读进来报错，去查看原文件
##报错解释：文件本来是有5列，读着第2行就变成4列，不能识别。

有一个深坑：
用sublime打开，看着是空格，没问题。其实分隔符号是有两个，中间是一个空着的列，所以才会有两个分隔符。
R语言里识别的空格符 sep = ""，只要是空着就行，识别空格和\t.给它两个制表符，它还是会识别成一个分隔符。两个制表符放在一起还是空的，凡是空的东西放在一起，它会识别为空的分隔符。

?read.table
##查看帮助文档，找到参数
soft = read.table("soft.txt", fill =T )
##加上参数fill =T，哪个地方有缺位，就用空格子补全。
##能读进来，在环境里点击变量soft看，列名没有正确识别，加参数header =T。
soft = read.table("soft.txt", fill =T, header = T )
##用sublime打开，在空格处，用tab键，出现两个空格，有一个为分隔符

soft = read.table("soft.txt", fill =T, header = T, sep = '\t' )
##sep = 为指定分隔符，这里指定的分割符为制表符'\t'，指定一个\t'为分隔符，两个制表符放在一起，就知道中间那个隔该空着，才正常。

soft 的行数列数是多少？列名是什么

dim(soft)
#[1] 1000    5

colnames(soft)
#[1] "ID"       "SEQUENCE" "GeneName" "GB_ACC"   "SPOT_ID"

将soft导出为csv

write.csv(soft,"soft.csv")
##省略形式参数file=

将soft保存为Rdata并加载

将soft保存为Rdata并加载。
save(soft,file = "soft.Rdata")
##只有soft一个变量时，形式参数file = 可以省略
rm(list=ls())
##用快捷键清空环境变量或是重启session（打开窗口）。才能看到加载是否成功。
load("soft.Rdata")
##输入load("so")用tab键补全，加载成功会在环境里显示soft变量

注意：用save() 函数保存几个变量时，形式参数file=不能省略，因为几个变量用逗号隔开，写上file=提示变量结束，可保存。

x= read.table("complete_set.txt")
save(x,file = "x.csv")
##没报错，看起来还是很正常
a = read.csv("x.csv")
##读入报错，并且用Excel打开，里面的内容乱码

##假如原始文件丢了，怎么办？
##用save生成，是Rdata文件，得用load加载
load("x.csv")
##成功加载

###结论：
##一个文件是什么类型文件，是由函数决定的，不是由叫什么（后缀）决定的，后缀只是起提示作用。用什么命令生成才是最重要的，用后缀是为了提示。记住什么样的命令对应什么样的文件。

6.4 文件读入R语言总结：

从外部读入一个文件，经常从官网上下载读入，如原始表达矩阵或是注释探针ids，在用R语言读入，同时用sublime软件打开，对比，看看是否需要调参数，一步步去设置，毕竟不是自己整的原始表格，有些数据的坑需要慢慢去试。

7.进阶：可读入R语言的常见生信数据形式

7.1 R语言能读取很多文件格式

来自生信技能树小洁老师的课件图

生信格式在上游分析的时候会提到，一般上游分析用Linux来完成，因为上游的数据比较大，Linux运行时比较快。Rstudio是图形界面，比较费空间，运行慢，但是看格式。目前只用在csv和txt，如果以后用生信格式，在网页上搜索，如：R read.fasta[https://www.rdocumentation.org/packages/seqinr/versions/4.2-8/topics/read.fasta]用得比较少

8.进阶：读取文件的其他常用R包

用于读取/导出文件的R包

来自生信技能树小洁老师的课件图

read.delim()比较好用，是read.table()的小变体，可以读取一些txt文件，它的默认参数有的和read.table()的有所区别。用read.table()读取txt文件，挑了参数也不成功，可以换成read.delim()，有可能该文件适合read.delim()的默认参数。

8.1 readr包

https://readr.tidyverse.org/

https://readr.tidyverse.org/reference/read_delim.html

哈德雷大神写的包，有几个函数，read_table()和read.table()功能有些同，但不是完全一样的，read_table()等函数是升级改造版的，有一些问题，除定义读取方式外，还定义一种新的数据结构，叫tibble，用tibble的函数读进去，就不是正常数据框，有两种数据，一个是data.frame一个是tibble，直接as.data.frame就可以，取子集比较兼容。它升级的地方在于：1.读取更加智能些，2.数据格式，tibble是一种优化的数据框。刚入门的文件比较小，读取大文件速度快。

8.2 data.table包：fread()常用的函数

fread()常用的函数：可以读入csv格式文件和txt格式文件

智能和快速，行名无用论（大神不处理矩阵，以数据框为目标，但是生信分析需要用表达矩阵），是哈德雷大神早期写的包

library(data.table)
a = fread('exp.csv')
##在环境里点开变量看，没有行名。
 class(a)
#[1] "data.table" "data.frame"
##exp.csv文件用read.csv读进来是数据框，但是用fread()读进来变成两种数据格式，不认识"data.table" 格式

##把讨厌的"data.table" 去掉，设置参数。
a = fread('exp.csv',data.table = F)
class(a)
#[1] "data.frame"
##只有数据框，这样取子集比较兼容

##设置行名
rownames(a) = a[,1]
a= a[,-1]

b = fread('ex1.txt')
##读进来感觉正常

8.3 rio包

有时候用R语言自带的base包里函数read.table()，找不到一些默认参数，就用rio包里的函数：

8.3.1 import()：读入文件

library(rio)
import()
##读去标准文件时非常智能，但是读取不标准文件时如傻子一样。
?import
##根据后缀来怎么读取代码，以及一些小参数设置，还需要知道后缀只是起提示作用，不是决定作用。
import("gene.csv")
#    gene change score
# 1 gene1     up     5
# 2 gene2     up     3
# 3 gene3   down    -2
# 4 gene4   down    -4
import("gene.csv",format = '\t')
##能正常读取，包括.counts，soft为后缀的文件，可以用format = '\t'读取。

import()函数非常好用，不需要设置任何参数，可以读csv，txt，excel。也可以读取包括.counts，soft为后缀的文件，可用format = '\t'读取。

8.3.2 export()：文件导出

根据文件的后缀导出什么文件

library(rio)
h = import("gene.csv",format = '\t')
export(h,file = "hh.csv")
##根据文件的后缀导出什么文件
export(h,file = "hh.xlsx")
##导出为xlsx后缀的文件
h = import("hh.xlsx",format = '\t')

原来用readxl::read_xls()来读取xlsx文件，但是对新手不友好的地方在于：依赖rjava，新手很难搞定。所以用rio包里的函数。

8.3.3 import_list()：读取Excel多个工作簿

是读取Excel最好的方式，可以读取多个工作簿，就是一个Excel里有Sheet1，Sheet2..表格。

b = import_list("hh.xlsx")
##Excel里有多个工作簿就用import_list()函数读进来，结果以列表显示

export(b,file = "hh2.csv")
##可以导出，含多个工作簿的列表

说明

以上内容是听生信技能树小洁老师的R语言线上课，根据自己的理解记录下来，小洁老师授课非常细心，对不同水平的同学都照顾到，并且补充很多技巧以及注意事项。

没认真学习R语言读进csv格式文件前，不知道怎么设置函数的参数，经常报错，一旦报错后面的数据分析出问题。在实战时，从官网下载的文件，读入文件参数设置错，没法分析，比较折磨人。谢谢小洁老师精心设置的典型表格文件，并引导尝试解决一些报错的思路。

R语言_文件读取与保存