获取,设置环境
getwd()
setwd()
接下来学习7种常见数据类型:CSV,excel, 二进制,XML,JSON,Web数据,数据库的读取和写入
适用于数据帧的函数:
首先读取文件,
max(data$column)
subset(dataread, condition)
as.Date(start_date) > as.Date("")
1. CSV
逗号分隔值文件,文本文件
读取:read.csv("filename")
读取指定信息
== & conditionN
写入
write.csv(variable, "filename.csv")
编辑去掉columnnumber
write.csv(variable, "filename.csv", row.names=FALSE)
#error in read.table more column names than columns
2. excel文件
#install.packages() no such file run-time, error interpreter
3. 二进制文件
4. XML文件
首先install.packages("XML")
创建.xml文件
load配置:
>library("XML"),
>load("methods")
读取:a <- xmlParse("filename"),
提取关键信息,利用传递:a <- xmlRoot(), b <- xmlSize()
位置获取:rootnode[n][n] #rootnode第几个节点第几个信息
转换编辑:xmlToDataFrame("filename")
5. JSON文件
install.packages("rjson")
load packages: library("rjson")
a <- fromJSON("filename")
b <- as.data.frame(a) #转换成数据帧
6. web数据
安装的包:"RCurl", "XML", "stringr", "plyr"
# could not find function "getHTMLLinks"
怀疑XML安装包没有安装好 ->any(grepl("XML", install.packages()))
需要sudo
7. 数据库
#dbConnection() not found
解决:load library
#问题见图