001 什么是数据分析:从海量的数据中提取出有价值有意义的信息
002 为什么要进行数据分析:获取数据报告,以实现工作部署调整
003 需要的最新方法是什么:R语言程序
一、 R语言的优势
a免费自由平台;b分析数据兼容性强大;c突出的可视化亮点;d多平台支持更新快等。
二、安装获取The R Project for Statistical Computing(包可极大增强R的功能)
三、R语言
001 R是一种区分大小写的解释性语言。(有大小写之分、语言代码的可解释性)
002 命令符 >。a每次输入并执行一条命令;b一次性执行写在脚本文件中的一组命令。(Rstudio的使用体会到真实方便快捷,Rstudio下载地址:Download RStudio
003 R功能由程序内置函数、用户自编函数和对对象的创建和操作所提供。对R来说一个对象可以是任何东西,包括数据、函数、图形、分析结果等,对象的类属性告诉R如何执行运算,即R识别出对象的属性并按照规则进行处理。
004R语句由函数和赋值构成。“x <- rnorm(5)”中对象“x”,函数“rnorm()”,”5”为赋值。
四、新手上路
通过一个R会话示例,让我们简洁直观的感受到R的是如何操作和运行的。示例如下:
> age <- c(1,3,5,2,11,9,3,9,12,3)
>weight<c(4.4,5.3,7.2,5.2,8.5,7.3,6.0,10.4,10.2,6.1)
> mean(weight)
[1] 7.06
> sd(weight)
[1] 2.077498
> cor(age,weight)
[1] 0.9075655
> plot(age,weight)
> q()
五、获取帮助,是学会学习的一个好策略,尝试R中的帮助函数,了解其功能。
六、工作空间(workspace)
a.使用函数 getwd() 来查看当前的工作目录
示例如下:
> getwd()
[1] "C:/Users/LENOVO/Documents/one"
b.使用函数 setwd() 设定当前的工作目录
c.用于管理R工作空间的命令使用示例
setwd("C:/users/LENOVO/Documents/one") #当前工作目录被设置为C:/users/LENOVO/Documents/one
options() #当前的选项设置情况将显示出来(信息量太大)
options(digits=3) # 数字将被格式化,显示为具有小数点后三位有效数字的格式
x <- runif(20) # 创建了一个包含20个均匀分布随机变量的向量
summary(x) #生成此数据的摘要统计量
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.058 0.244 0.478 0.494 0.723 0.998
hist(x) # 生成直方图
q() #询问是否保存工作空间
> q()
Save workspace image to ~/one/.RData? [y/n]:
注意事项:R将反斜杠(\)作为一个转义符。Windows平台上运行R,在路径中也要使用正斜杠。同时注意,函数 setwd() 不会自动创建一个不存在的目录。如果必要的话,可以使用函数 dir.create() 来创建新目录,然后使用 setwd()将工作目录指向这个新目录。
示例如下:
>dir.create("C:/users/LENOVO/Documents/two")
Warning message:
Indir.create("C:/users/LENOVO/Documents/two") :
'C:\users\LENOVO\Documents\two' already exists
>setwd("C:/users/LENOVO/Documents/two")
七、输入和输出
使用函数 source() 进行输入并使用函数 sink() 进行输出。
八、包(package)
a.可从Contributed Packages下载。
b. 什么是包:包是R函数、数据、预编译代码以一种定义完善的格式组成的集合。
示例如下:
> .libPaths()#显示库所在的位置
[1] "C:/Users/LENOVO/Documents/R/win-library/3.3"
[2] "C:/Program Files/R/R-3.3.2/library"
> library()#显示库中有哪些包
图书馆‘C:/Program Files/R/R-3.3.2/library’里有个程辑包(很多)
> library()
Warning message:
In library() :
图书馆‘C:/Users/LENOVO/Documents/R/win-library/3.3’里没有程辑包
> search()#哪些包已加载并可以使用。显示如下:
[1] ".GlobalEnv"
[2] "tools:rstudio"
[3] "package:stats"
[4] "package:graphics"
[5] "package:grDevices"
[6] "package:utils"
[7] "package:datasets"
[8] "package:methods"
[9] "Autoloads"
[10] "package:base"
c. 包的安装和载入
第一次安装一个包,使用命令 install.packages() 。使用命令install.packages("gclus") 来下载和安装包gclus。安装后方可载入,使用 library() 命令载入包。要使用 gclus 包,执行命令 library(gclus)即可。
> library(class)#载入包class。
d.包的使用方法
> help(package="class")#输出class包的简短描述以及包中的函数名称和数据集名称的列表
e. R语言编程中的常见错误(需要多实践多操作,并对照常见错误,进一步学习