《R语言与统计分析》的读书笔记
本书的重点内容及感悟:
第三章 概率与分布
1、随机抽样
通过sample()来实现。
1)等可能的不放回的随机抽样。sample(x,n)其中x为要抽取的向量,n为样本量。例如从52张扑克牌抽取4张对应的R命令为:sample(1:52,4)
2)等可能的有放回的随机抽样。sample(x,n,replace=TRUE)如:sample(c("H","T"),10,replace=TRUE)
3)不等可能的随机抽样。sample(x,n,replace=TRUE,prob=y) 如:sample(c("成功","失败"),10,replace=T,prob=c(0.9,0.1))或sample(c(1,0),10,replace=T,prob=c(0.9,0.1))
2、排列组合与概率的计算
1)从一副完全打乱的52张扑克中取4张,求以下事件的概率:第一、抽取的4张依次为红心A,方块A,黑桃A和梅花A的概率;1/prod(52:49) 第二、抽取的4张为红心A,方块A,黑桃A和梅花A的概率,1/choose(52,4)。
3、概率分布
离散颁布的分布律:
1)贝努里分布:binom(1,p)。意义:一试验中有二个事件:成功(记为1)与失败(记为0),出现的概率是分别为p和1-p。则一次试验(称为贝努里试验)成功的次数服从一个参数为p的贝努里分布。
2)二项分布:binom(n,p)。意义:贝努里试验独立地重复n次,则试验成功的次数服从一个参数为(n,p)的二项分布。特例:n=1时分布为贝努里分布。
3)多项分布:multinom(n,p1,...,pk)。意义:一试验中有k个事件。将此试验独立地重复n次,则事件出现的次数服从一个参数为(n,p)的多项分布。其中p=(p1,p2,...,pk)。特例:k=2时分布为二项分布。
4)负二项分布:nbinom(k,p)。意义:贝努里试验独立地重复进行,一直到出现k次成功时停止试验,则试验失败的次数服从一个参数为(k,p)的负二项分布。特例:k=1时的分布为几何分布。
5)几何分布:geom(p)。意义:努由试验独立地重复进行,一直到有成功出现时停止试验,则试验失败的次数服从一个参数为p的几何分布。
6)超几何分布:hyper(N,M,n)。意义:从装有N个白球和M个黑球的罐子中不放回地取出k个球,则其中的白球数服从超几何分布。
7)泊松分布:pois(λ)。意义:单位时间、单位长度、单位面积、单位体积中发生某一事件的次数常可以用泊松分布来刻划。例如某段高速公路上一年内的交通事故数和某办公室一天收到的电话数可以认为近似服从泊松分布。
连续分布的密度函数:
1)贝塔分布:Beta(a,b)。意义:在贝叶斯分布中,贝塔分布常作为二项分布的共轭先验分布。特例:a=1,b=1时的分布为[0,1]上的均匀分布。
2)均匀分布:unif(a,b)。意义:区间[a,b]上随机投点对应的坐标服从[a,b]上的均匀分布。
3)柯西分布:cauchy[a,b]。意义:用于描述共振行为,以一随机的角度投向X轴的水平距离服从柯西分布。
4)威布尔分布:weibull(a,b)。意义:最为常用的寿命分布,用来刻划滚珠轴承,电子元器件等产品的寿命。特例:b=1时的分布为指数分布。
5)指数分布:exp(λ)。意义:泊松过程的等待时间服从指数分布。
6)瑞利分布:rayl(b)。意义:瑞利分布为weibull分布的又一个特例。
7)正态分布/高斯分布:norm(μ,σ2)。意义:高斯分布是概率论与数理统计中最重要的一个分布,中心极限定理表明,一个变量如果是由大量微小的,独立的随机因素的叠加结果,那么这个变量一定是正态变量。因此许多随机变量可以用高斯分布表述或近似描述。
8)对数正态分布:lnorm(μ,σ2)。意义:ln(X)服从参数为(μ,σ2)的正态分布,则X服从参数(μ,σ2)的对数正态分布。
9)逆正态分布:inorm(μ,λ)。意义:正态随机变量的倒数服从的分布。
10)珈玛分布:gamma(a,b)。意义:k个相互独立的参数为1/b的指数分布的和服从参数为(k,b)的珈玛分布。
11)逆珈玛分布:igamma(a,b)。意义:珈玛分布随机变量的倒数服从逆珈玛分布。
12)卡方(χ2)分布:chisq(n)。意义:n个独立正态随机变量的平方和服从自由度为n的卡方分布。
13)逆卡方(χ2)分布:ichisq(n)。意义:卡方分布随机变量的倒数服从逆卡方分布。
14)t分布:t(n)。意义:随机变量X与Y独立,X服从标准正态分布,Y服从自由度为n卡方分布,由T=X/根号Y/N服从自由度为n的t分布。
15)F分布:f(n,m)。意义:随机变量X与Y独立,X服从自由度为n卡方分布,Y服从自由度为m卡方分布。则T=X/n/Y/n服从自由度为(n,m)的F分布。
16)logistic分布:logis(a,b)。意义:生物学中的增长模型常用logistic分布来刻划,它也常用于logistic回归中。
17)Dirichlet分布:dirichlet()。意义:
18)Pareto分布:pd(a,b)。意义:财富的分配规则是大部分的财富(80%)被少数人(20%)的人拥有。就可以较好的用Pareto分布来刻划。
19)非中心分布,与前面卡方分布,t分布和F分布相对应还有三个非中心分布。
若无特别申明,通常所说的卡方分布、t分布和F分布都是中心的卡方分布、t分布和F分布。
4 R中内嵌的分布
R提供了四类有关统计分布函数:密度函数、累积分布函数、分位数函数、随机数函数。对于所给的分布名称,加前缀“d”就得到R的密度函数;加前缀“p”就得到R的分布函数;加前缀“r”就得到R的随机数发生函数
1)查找分布的分位数。用于计算假设检验中分布的临界值或置信限。>qnorm()
2)计算假设检验的P值。这些函数将在以后的章节中发挥极大的作用。
5、中心极限定理:中心极限定理是概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理。
第四章 探索性数据分析
数据的统计分析分为描述性统计分析和统计推断两部分,前者又称为探索性统计分析,它是通过绘制统计图形,编制统计表格、计算统计量等方法来探索数据的主要分布特征,提示其中存在的规律。探索性数据分析是进行后期统计推断的基础。
1、常用分布的概率函数图
二项分布、泊松分布、几何分布、超几何分布、负二项分布、正态分布、t分布、χ2分布、F分布、对数正态分布、柯西分布、威布尔分布、珈玛分布、贝塔分布
2、直方图与密度函数的估计
1)直方图是探索性数据分析的基本工具,它给出了数据的频率分布图形,在组距相等场合下常用宽度相等的长条矩形表示,矩形的高低表示频率的大小。R用函数hist()来画直方图。
2)核密度估计用函数density()
3、单组数据的描述性统计分析
1)单组数据的图形描述:直方图、茎叶图、框须图、正态性检验
2)单组数据的描述性统计:样本来自总体,样本的观测值中含有总体各方面的信息,但这些信息较为分散,有时显得杂乱无章,为将这些分散在样本中的有关总体的信息集中起来以反映总体的各种特征,需要对样本进行加工得到统计量,均值、标准差、五数(最小值、第三4分位数、中位数、第一4分位数、最大值)是数据的主要的统计量,他们对数据的进一步分析很有帮助。总体描述summary()、均值mean()、五数fivenum()及样本分位数quantile()。
3、多组数据的描述性统计分析
1)两组数据的图形概括:
散点图:speed和dist基本呈现线性相依关系。所以,散点图在描述二维数据的关系方面很重要。我们用一条非线笥的特殊曲线来按拟和这种关系,调用了函数lowess()。在R中,有两个函数可以实现这个功能,一个是lowess(),另一个是loess(),前者只适用于二维的情况,而loess()可能处理多维的情况。
等高线图:有时候太多太集中,散点图上的信息不容易看出来。
数据的变换:当直接用原数据得不到有意义的图形时,可以对数值进行变换以得到有意义的图形,最常用是对数变量,指数变换,倒数变换和更为一般的box-cox变换。
2)多组数据的图形描述:分组数据比较特殊,它既含有定性的变量,又含有数值变量,而上面所说的多组数据,我们仅局限于数值型的观测。
3)多组数据的描述性统计:多组数据的概述、标准差与协方差阵的计算、相关系统的计算
4 分组数据的图形概括:分组数据可视为特殊的多组数据,他们的区别是:大多组数据中各数值型变更的观测值指向不同的对象,而分组数据是指向一个数值型变量的观测值按另一个分类变量分成若干个子集。因此,这些子集指向同一个变量。
由原始数据构造列联表。
第五章 参数估计
根据样本推断总体的分布和分布的数字特征称为统计推断。这一章我们介绍统计推断的一个基本问题---参数估计问题。在很多实际问题中,总体的分布类型已知但它包含了一个或多个参数,总体的分布完全由所含的参数决定,这样就需要对参数作出估计。参数估计有两类,一类是点估计,就是以某个统计量的样本观测值作为未知参数的估计值;另一类是区间估计,就是用两个统计量所构成的区间来估计未知参数。
1、矩法估计和极似然估计
如果总体X的k阶矩存在,则样本的K阶以概率收敛到总体的K阶矩,样本矩的连续函数收敛到总体矩的连续函数,这就启发我们可以用样本矩阵作为总体矩的估计量,这种用相应的样本矩去估计总体矩的估计方法就稀烂为矩估计法。
结论:λ的一阶矩估计为1.87,二阶矩估计为1.13,实际上上面的数据是模拟参数为2的指数分布,可见低阶矩阵更精确。在总体分布未知的情况下也可以用样本均值估计总体均值,用样本方差估计总体方差。
2、单正态总体参数的区间估计
上一节我们讨论了点估计,由于点估计值只是估计量的一个近似值,因而点估计本身既没有反映出这种近似值的精度,即指出用估计值去估计的误差范转有多大,而且也没有指出这个误差范围以多大的概率包括未知参数,这些问题正是区间估计要讨论的问题,区间估计解决了这二个问题,它给出了估计的可信程度,是一种重要的统计推断形式。
均值μ的区间估计;方差σ2已知时的置信区间;方差σ2未知时的置信区间;方差σ2的置信区间.
方差σ2的置信区间:此时虽然也可以就均值是否已知分两种情况讨论σ2的置信区间,但在实际中μ已知的情况是极为罕见的。所以,我们只在μ求知的条件下讨论σ2的置信区间。
3、两正态总体参数的区间估计
1)均值差μ1-μ2的置信区间。
两方差都已知时两均值差的置信区间。两方差都未知时两均值差的置信敬意。
2)双方差比σ12/σ22的置信区间.
4、单总体比率p的区间估计
在许多实际问题中,我们经常要去估计在总体中某种特性的个体占总体的比例(率),设为p。
5、两总体比率差p1-p2的区间估计
设有两总体X与Y相互独立(总体容量都较大),从中分别抽取n1,n2个(n1,n2也较大)观察,结果发现其中各有x1和x2个具有某种特征。
6、样本容量的确定
确定样本容量n是抽样中的一个重要问题,样本容量抽取过少会丢失样本信息,会导致太大而不满足要求。若样本抽取太多,虽然各种信息都包含了,误差也降低了。但同时会增加所需要的人力,物力和费用开销。所以权衡两者,我们要抽取适当数量的样本。
分为总体方差已经和总体方差未知两种情况。估计比例p时样本容量的确定。
第六章 参数的假设检验
统计推断的另一重要内容是假设检验,先对总体的某个未知参数或总体的分布形式作某种假设,然后由抽取的样本提供的信息,构造合适的统计量,对所提供的假设进行检验,以做出统计判断是接受假设还是拒绝假设。这类统计推断问题称为假设检验问题,前者称为参数假设检验,后者称为非参数假设检验。
假设检验的主要步骤:第一、提出原假设H0与备择假设H1;第二、选择检验统计量W并确定其分布;第三、在给定的显著性水平下,确定H0关于统计量W的拒绝域;第四、算出样本点对应的检验统计量的值;第五、判断:若统计量的值落在拒绝域内,则拒绝H0,否则接受H0。
1、单正态总体参数的检验
1)方差σ2已知时μ的检验:Z检验;
2)方差σ2未知时μ的检验:t检验;
3)方差σ2的检验:x2检验;
2、两正态总体参数的检验
1)均值的比较:t检验
2)方差的比较:F检验
3、成对数据的t检验
成对数据,是指两个样本的样本容量相等,且两个样本之间除均值之个没有另的差异。例如:比较某一个班同一单元内容的第二次考试是否比第一次的高?同一个人在服用某种维生素后是否比未服用之前不易感冒?
4、单样本比率的检验
1)比率p的精确检验
2)比率p的近似检验:当样本容量较小而做近似检验时,R输出的结果会有警告信息。在R中,当样本容量大于20时不会出现这样的警告,通常,我们一般在样本容量大于30时做大样本近似。
5、两样本比率的检验
第七章 非参数的假设检验
上章讲的参数假设检验是在假设总体分布已知的情况下进行的,但在实际生活中,那种对总体的分布的假定不是能随便做出的。数据并不是来自所假定分布的总体,或者,数据根本不是来自一个总体;还有可能数据因为种种原因被严重污染。这样,在假定总体分布已知的情况下进行推断的做法就可能产生错误甚至灾难性的结论。于是,人们希望在不对总体分布作出假定的情况下,尽量从数据本身获得所需要的信息,这就是非参数推断的宗旨。
1、单总体位置参数的检验
2、两总体的比较与检验:在单体问题中,人们想要检验的是总体的中心是先于一个已知的值。但在实际问题中,更受注意的往往是比较两个总体的位置参数,比如,两种训练方法中哪一种更出成绩,两种汽油中哪一种污染中更少, 两种市场营销策略中哪种更有效等。
1)x2独立性检验;2)fisher精确检验;3)Wilcoxon秩和检验法和mann-whitney U检验;4)Mood检验;注意:因为mood检验需要的假定之一是两样本的中位数相同,故在检验时要先消除两样本之间中位数的差异,接着才可以做mood检验。
3、多总体的比较与检验
第八章 方差分析
方差分析的主要工作就是将观测数据的总变异(波动)。按照变异的原因的不同分解为因子效应和试验误差,并对其作出数量分析。比较各种原因在总变异中所占的重要程度,以此作为进一步统计推断的依据。
1、单因子方差分析,均值的多重比较。进行方差分析后发现各效应的均值之间有显著差异,此时只能知道有某些均值彼此不同,但无法知道哪些均值不同。下面的方法帮助我们找出在进行方差分析时哪些均值是不同的。多重t检验方法;
2、双因子方差分析。对于两因素的方差分析,基本思想和方法与单因素的方差分析相似,前提条件仍然是要满足独立、正态、方差齐性。所不同的是在双因素方差分析中,有时会出现交互作用,即二因素的不同水平水平搭配对指标产生影响。
无交互作用的方差分析;有交互作用的方差分析;
3、协方差分析:前面的方差分析中两组或多组均值间比较的假设检验,其处理因素一般是可以控制的。但在实际工作中,有时有些因素无法加以控制,如何在比较两组或多组均数间差别的同时扣除或均衡这些不可控因素的影响,可考虑采用协方差分析的方法。
协方差分析是将线性回归分析与方差分析结合起来的一种统计分析方法,其基本思想就是:将一些对应变量Y有影响的变量(指未知或难以控制的因素)看作协变量,建立响应变量Y随协变量X变化的线性回归关系,并利用这种回归关系把X值化为相等后再对各种处理组Y的修正均值间差别进行假设检验,其实质就是从Y的总的平方和中扣除X对Y的回归平方各,对残差平方各作进一步分解后再进行方差分析,以更好地评价这种处理的效应。
第九章 回归分析与相关分析
相关分析和回归分析是研究变量间相互关系,测定它们联系的紧密程度,揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。
1、相关性及其度量:散点图是一种最为有效最为简单的相关性分析工具。
2、一元线性回归分析:相关分析只能得到两个变量之间是否相关,但却不能回答在两个变量之间存在相关关系时,它们之间是如何联系的,即无法找出刻画它们之间因果关系的函数关系。回归分析就可以解决这一问题,先从一元线性回归讲起。回归方程的显著性检验。
3、多元线性回归分析:许多实际问题中,影响响应变量的因素往往不只是一个而是多个,我们称这类回归分析为多元回归分析。计算过程:第一、建立数据集;第二、建立多元线性回归方程;第三、变量选择与最优回归。
4、回归诊断:前面介绍得到回归模型,但没有对回归模型的一些特性作进一步的研究,并且没有研究对回归模型产生较大影响的异常值问题。异常值的存在往往会给回归模型带来不稳定,为此,人们提出了所谓回归诊断的问题,其主要内容有:残差分析、影响分析、共线性诊断等。
5、Logistic回归:线性回归模型是定量分析中最常用的统计分析方法,但线性回归分析要求响应变量是连续型变量。在实际研究中,尤其是在生物、医学、经济和社会数据的统计分析中,研究遇到非连续型的响应变量,即分类响应变量。
第十章 多元统计分析介绍
多元统计分析也称为多变量统计分析,多因素统计分析或多元分析,是研究客观事物中多变量之间的相互关系和多样品对象之间差异以及多个变量为代表的多元随机变量之间的依赖和差异的现代统计分析理论和方法。
1、主成份分析与因子分析
standard deviation:表示主成份的标准差,即主成分的方差平方根,即相应特征值的开方;
proportion of variance:表示方差的贡献率;
comulative proportion:表示方差的累计贡献率;
由于前两个主成份的累计贡献率已经达到96.36%,所以取前两个主成分来降维。
主成份分析是把多维空间的相关多变量的数据集,通过降维化简为少量而且相互独立的新综合指标,同时又使简化后的新综合指标尽可能多的包括原指标群中的主要信息,或是尽可能不损失原有指标的主要信息的一种多元统计分析方法。
2、判别分析: 判别分析是用于判断样品所属类型的一种统计分析方法,判别分析的目的是对已知归类的数据建立由数值指标构成的归类规则。然后把这样的规则应用到未知归类的样品去归类。
3、聚类分析
第十一章 贝叶斯统计分析
1、贝叶斯统计分析与经典统计分析的比较
贝叶斯统计分析有着经典统计分析所无可比拟的优势。第一、它结合了数据的信息与参数的先验信息,不断通过本数据更新先前的认知;第二、与经典统计分析相比,它的理论框架相对简单,且不需要繁杂的假设及数学推导。第三、它不但能缺失数据、截尾数据等进行简明处理,还能对模型进行全面而稳健的估计。
2、贝叶斯统计分析与先验分布的选取。
3、单参数贝叶斯统计分析;
4、多参数贝叶斯统计分析;
5、分层贝叶斯统计分析;
6、贝叶斯统计分析。