R笔记之《R语言之书-编程与统计》第三部分统计学与概率

一个记录，第三部分从13章开始，共4章的内容，一起看看吧。

第13章初级统计学

描述原始数据
统计概要

第14章数据可视化基础

条形图和饼图
直方图
箱线图
散点图

第15章概率

什么是概率
随机变量和概率分布

第16章常见的概率分布

常见的概率质量函数
常见的概率密度函数

首先是

第13章初级统计学—描述原始数据

原始数据即是相关样本的观测值或者记录值，其可以存储在各种对象，如数据框中，读入R内。
数值型变量分为连续型和离散型
分类变量 分为名义变量和有序变量两种形式，名义变量是不能按照逻辑顺序排序的分类变量，如性别，有男女两个固定值并且这两个类别的顺序不相关。有序变量是指可以排序的分类变量，如药物剂量可能取值是低中高，这些数值按照升序或者降序进行排序，并且顺序可能与实验相关。
单变量和多变量数据，单变量即一维，多变量即多维。
参数和统计量 ，区分统计量和参数的关键是确定特征数描述的是我们可以用来获得数据的样本还是总体。
集中趋势：均值、中位数、众数，集中趋势通过描述型观测值的中心来解释大量数据集合，最常见的是用算术平均数来测度中心趋势，也就是观测值集合的中心平衡点。
中位数是观测值的中等大小，将观测值按照从小到大排序，会发现中位数要么是中间值（奇数个观测值），要么是两个中间值的均值（偶数个观测值）。
众数是指出现最频繁的观测值，常用于离散型数据。

mean() #平均值
medium()  #中位数
min() #最小值
max() #最大值
table() # 求众数，会输出频数

如果数据集中有缺失值或者有未定义的变量（NA或NaN），R中的许多函数无法从这样的数据结构中计算出统计量。我们可以使用参数na.rm 设置为TRUE，可以强制函数只作用于数据集中的数值型数据。

> mean(c(1,4,NA,NaN)，na.rm=TRUE)
> 2.5

#函数诸如sum、prod、mean、medium、max、min、和range等在数字向量的基础上计算数字统计量的任何函数，都可以使用参数na.rm

关于R语言中apply函数族可以参考http://blog.fens.me/r-apply/
"tapply函数用于分组的循环计算，通过INDEX参数可以把数据集X进行分组，相当于group by的操作。
函数定义：tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)

参数列表：
X: 向量
INDEX: 用于分组的索引
FUN: 自定义的调用函数
…: 接收多个数据
simplify : 是否数组化，当值array时，输出结果按数组进行分组

tapply(chickwts$weight, INDEX=chickwts$feed,FUN = mean)
#chickwts$weight 是R内置数据框中的体重向量，参数INDEX是分组变量，以chickwts$feed 为分组，参数FUN为函数名，FUN = mean 为平均值
   casein horsebean   linseed  meatmeal   soybean sunflower 
 323.5833  160.2000  218.7500  276.9091  246.4286  328.9167

计数、百分比和比例
四分位数、百分位数、五分位数概括法
quatile 函数可以求得分位数和百分位数。
离散程度：方差、标准差和四分位差
样本方差用来测度观测值在算术平均数周围的离散程度。方差(var)是每个观测值与平均数之间距离的均方平方和。标准差(sd)是方差平方根，因为方差代表平均距离的平方，所以标准差可用于解释原始观测值的规模。四分位差（IQR）用以测度中间50%数据的宽度，也就是中位数两侧0.25分位数之间的距离。
协方差表示两个数值型变量在什么程度上“一起变化”，两者之间是正相关关系还是负相关关系。假设由n个观测值构成样本，两个变量的取值分别是x={x1，x2，....，xn}，y={y1，y2，....，yn}(i=1，....，n),xi与yi相对应。相关系数可从相关关系的方向和强度两方面进一步解释协方差。有几种不同类型的相关系数，最常用的是Pearson相关系数，Pearson样本相关系数ρ，函数cov和cor计算样本协方差和相关系数。
奇异值是看起来和其余数据不匹配的观测值。当与其他大量数据相比较时，它是一个显著的极端值。

其次是

第14章数据可视化基础

条形图

> mtcars[1:5,]    #先查看R数据集mtcars1到5行的数据
                   mpg cyl disp  hp drat    wt  qsec vs am gear carb
Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
> cyl.freq <- table(mtcars$cyl) # 提取mtcars中cyl列的汽车数量有多少

> cyl.freq
#有4、6、8 个cyl，分别有11、7、14辆汽车
 4  6  8 
11  7 14 
> barplot(cyl.freq)   #barplot函数制作条形图

table(mtcars$cyl[mtcars$am==0]) #am有0和1的区别，根据cyl和am来得到汽车数量

 4  6  8 
 3  4 12 
> table(mtcars$cyl[mtcars$am==1])

4 6 8 
8 3 2 
> cyl.freq.matrix <- table(mtcars$am,mtcars$cyl) #得到矩阵行、列
> cyl.freq.matrix   #矩阵2行3列，
   
     4  6  8
  0  3  4 12
  1  8  3  2
> barplot(cyl.freq.matrix,beside=TRUE ,horiz=TRUE,las=1,
main="Performance car counts\nby transmission and cylinders",
names.arg=c("V4","V6","V8"),
legend.text=c("auto","manual"),
args.legend=list(x="bottomright"))

用ggplot2包也可以绘制此类图形

library("ggplot2")
qplot(factor(mtcars$cyl),geom="bar") #qplot绘图

qplot(factor(mtcars$cyl),
+       geom="blank",fill=factor(mtcars$am),
+       xlab="",ylab="",
+       main="Performance car counts\nby transmission and cylinders") + geom_bar(position="dodge") + scale_x_discrete(labels=c("V4","V6","V8")) + scale_y_continuous(breaks=seq(0,12,2))+theme_bw()+coord_flip() + scale_fill_grey(name="Trans.",labels=c("auto","manual"))

ggplot是需要重点掌握的一个R包

饼图基于频率的类别变量，表示每个类别变量的相对计数部分

R笔记之《R语言之书-编程与统计》第三部分统计学与概率