定量数据分析笔记

用stata算集中指数采用Stata系统自带数据库auto.dta。

一、集中趋势的统计描述
　　以变量price为例进行说明。
　　均数：采用mean price计算得6165.257。
　　算术均数、几何均数和调和均数可以采用means、ameans、gmeans、hmeans计算。
　　众数：没有对应的命令可以直接计算众数，但是可以通过几种策略进行变通计算。如通过egen x=mode(price); disp x; drop x，不过本例中price中没有相同的数值，所以无法计算众数；另外也可通过preserve; contract price, freq(x); sum x; list price if x==r(max); restore 来显示。
　　中位数：centile price或tabstat price, s(med)，当然tabstat还可以计算均数、样本量、标准差，标准误、方差、极差、四分位间距、变异系数、峰度系数、偏度系数等等很多指标。
　　不过采用Stata（summarize ，tabstat等命令）计算的峰度系数与Excel、SPSS和SAS计算的结果有所不同，原因是采用的公式不同，大家根据实际情况来选择。
　　二、离散趋势指标
　　极差（全距）：tabstat price, s(r)
　　标准差：tabstat price, s(sd)
　　方差：tabstat price, s(v)
　　四分位间距：tabstat price, s(iqr)
　　变异系数：tabstat price, s(cv)
　　采用summarize ， detail命令可以计算均数、标准差、峰度系数、偏度系数、多个百分位数。不加detial可以得到最大值、最小值。

回归分析
一、概念介绍
R²，又叫做决定系数（coefficient of determination），是来说明自变量解释因变量变化百分比的度量，R²越接近1，表示回归越成功。

pearson相关系数（Pearson‘s correlation coefficient），用字母r表示，主要描述线性相关强度的量，取值（-1，1）之间，当两个变量有很强的线性相关时，相关系数接近于1（正相关）

最小二乘法（least squares regression），最小二乘法就是寻找一条直线，使得所有点到该直线的垂直距离的平方和最小，也就是方差最小

F分布，

X²分布（卡方分布）

t分布
比较样本均值所代表的未知总体均值μ和已知总体均值μ1的异同。
类型：独立样本t检验和配对样本t检验

week4
正态分布：一条呈钟形的对称曲线。对于一个服从正态分布的随机变量，它的均值、众数和中位数相同，都在概率分布曲线的最高点上。其相对频率从中间逐渐向两端递减。
与中央极限定理的关系，是经典统计估计的基石。
判断标准：1、看频数（百分比）分布形状；2、计算均值（70.7）、中位数（70）与众数（70）。

均值决定正态分布中心的位置，标准差决定正太分布钟形的形状。标准差决定正态分布的钟形形状——标准差越大，钟形越扁平

标准正态分布：均值为0，标准差为1的正太分布为标准正太分布，亦称为Z分布，Z的单位与标准差的长度相同。一般正太分布值转为标准正太分布：Z=（x-μ）/σ
Z值在某一范围的概率即相应范围内概率分布曲线下的面积。
p（Z<1.96）stata表示为：display normal(1.96)；p（Z>1.96）stata表示为：1-display normal(1.96)，如计算全体员工成绩（μ=70.07，σ=10.27），想知道成绩位于均值到85之间的比例
解：display normal((85-70.07)/10.27)-.5（其中原理就是先转化为标准正太分布值，然后求出标准下的面积，再减去平均值0.5）；反过来如果想通过比例求出分数线，即已知Z值，求x，x=Zσ+μ，stata代码：dis invnormal(.9)10.27+70.07（求处于公司前10%的分数线）

检查变量是否正太分布

symmetry plot：对称图，用来判断样本数据的分布是否是对称的。symmetry plot在判断样本数据是否符合对称分布时会有一条reference line 即参考线，这是一条完美的对称分布数据，样本数据越接近这条线，越对称。stata命令：symplot varname
qnorm:画出一幅分位-正太标绘图，就是比较样本数据和正态分布数据在各个分位数上的差异
kdensity:是一种估计对给定样本集合点随机变量分布的密度函数，属于非参数估计（参数估计指先验的假定数据符合某种特定的性态，如线性的、指数性态的等，由此判断数据样本是否符合这种分布），而非参数估计方法则不同，它对数据分布不附加任何假定，是一种从数据样本本身出发研究数据分布的方法。

抽样分布
抽样误差：样本的统计值（statistic）与总体参数（parameter）之间的差异
中央极限定理：对于一个均值为μ，标准差为σ的总体，无论它本身是否服从正太分布，如果无数次从总体中抽取样本量为n的样本，随着n 的增大，那么样本均值的分布将服从均值为μ，标准差为σ/根号n的正太分布，即：

比例的抽样分布：对于一个某特定时间发生比例为π的总体，如果从中无限次抽取样本量为n的样本，那么随着n的增大，样本比例P的分布将服从均值为π，标准差为根号下π（1-π）/n,即

例题：某公司男女人数相同，现在随机抽取100名员工，问样本中男人人数大于等于60人概率是多少？
dis sqrt(0.5*0.5/100) #求出标准差为0.05，所以这是一个均值为0.5，标准差为0.05的正太分布
dis (0.6-0.5)/0.05 #转化为标准正态分布，求出Z=0.2
dis 1-normal(2) #求出的就是大于等于60%的面积=0.022

置信区间
通过统计推断找到包括样本统计量在内的一个区间；即通过有限样本，估计出未知参数以多大的概率在某一区间内取值。根据样本均值分布特点，该区间被认为包含总体参数。

置信水平（1-α）
总体参数落入某区间的概率。也就是“准确估计”的信心。而α称为错误水平。常用置信水平：95%、99%

计算置信区间的通用公式
公式：点估计值+-（关键值）*（标准误差）
点估计值，指样本统计值（均值、比例）
关键值，指根据抽样分布和置信水平决定的一个固定值Z α/2，如95%的置信区间，Z α/2=±1.96
标准误差是抽样分布的标准差：σ/sqrt(n)

例子

均值的置信区间规律
置信水平相同的情况下，样本量越大，区间越小；
样本量相同的情况下，置信水平越高，区间越大（这是因为由于数据样本相同，要想满足更高的置信水平，就必须有更大的置信区间，这样才能保证样本数据可以更正确的落入该区间）
区间越大，总体均值落在其间的可能性越大，估计正确的概率越大（犯错误的可能性越小），但估计的精确度越小；区间越小，估计的精确度越大，但估计错误的概率也越大

求置信区间的stata命令
dis 平均值+-关键值*（标准差/根号下样本量n）
ci var，level（）

小样本参数估计：t分布
t分布:参数估计的过程中，当总体标准差未知时，我们使用样本的标准差代替。但是这种处理方式仅适用于样本数量较大时，样本数量小的话就会影响精度。因此，我们通常用t分布对小样本均值（比例）进行估计

t分布作用：比较样本均值所代表的未知总体均值μ和已知总体均值μ1的异同。
类型：独立样本t检验和配对样本t检验

t分布公式和性质
μ指平均值，s指样本标准差

小样本均值（比例）的置信区间

不同于大样本均值的置信区间关键值是Zα/2/,t检验的关键字是t α/2 ,下图为大样本均值和比例置信区间公式

t分布的使用
只有当总体参数已知或者样本容量较大的时候，才使用z分布进行估计，否则使用t分布。一般情况下，在不确定的情况下，使用t分布，因为它更加保守

假设检验，也称作显著性检验，是利用样本统计值对关于总体参数的假设进行评估检验的方法和程序。
原假设（null hypothesis），一个关于“没有显著差异”的陈述，记为H0（可以或不可以被拒绝）
备择假设（alternative hypothesis），与原假设相互排斥的对立假设，即“有显著差异”的陈述，记为Ha。（是否被验证：如果原假设被拒绝，即可以被验证，如果原假设不能被拒绝，即没有被验证）

t值计算
p，即拒绝原假设放错误的概率

显著性水平α

单尾假设和双尾假设
选择双尾或单尾检验的标准：除非要强调检验的方向（如大于或小于），通常使用双尾检验，因为它更保守
双尾检验
H0：μ=μ0 or μ-μ0=0
H1：μ≠μ0 or μ-μ0≠0
左尾检验
H0：μ≥μ0 or μ-μ0≥0
H1：μ＜μ0 or μ-μ0＜0
右尾检验
H0：μ≤μ0 or μ-μ0≤0
H1：μ＞μ0 or μ-μ0＞0
计算方式：现根据条件计算出t值（t= （x-μ)/(s/sqrt(n))），然后通过stata求出p=dis 2*ttail（n-1，t）
如果p<α，就可以拒绝原假设，否则不能拒绝原假设

总体比例(π)的假设检验
用于类别（二项分布）变量
检验过程和均值假设检验一致
关键值t的计算公式t=（p-π）/sqrt(P(1-P)/n)（π：特定事件发生的比例为π）

双变量和多变量分析
单变量分析，对单一变量的描述和推论统计分析
双变量分析，对两个变量之间的关系~~~
多变量分析，对三个或更多个变量之间的关系~~~

自变量（independent variable）和因变量（dependent variable）
双变量分析，一个自变量一个因变量
多变量分析，一个因变量，两个或以上个自变量
结构方程模型，有超过两个的自变量和因变量

双变量分析

T检验
T检验，两个变量，因变量为定距-定比变量，自变量为定类-定序变量，且自变量只有两类（如男性和女性，城市和乡村，盈利与亏损等），
典型的T检验：检验两个群体（两类）的均值是否有显著差异，如收入是否有显著性别差异；
扩展1：检验一个变量的均值跟一个设定值之间是否有显著的差异（即前面的假设检验内容）；
扩展2：检验两个变量的均值是否有显著差异（配对样本）

T检验，stata命令
检验均值与一个设定值的差异：ttest varname=x,level=(#)
均值与设定值检验方法二：计算t检验 ttesti obs mean std μ（设定值），level（#）
方法三：通过求出置信区间，看设定值是否落入区间来判断：ci varname,level()
检验两个子群体均值的差异：ttest varname,by (group)
检验两个变量均值的差异：ttest varname1=varname2

检验两个群体的均值差异
stata命令验证：ttesti obs1 mean1 sd1 obs2 mean2 sd2,unequal

求出t值后，计算p值 p=dis 2*ttail（obs1+obs2-2，t）
注意下面

比较两个变量均值：配对样本
ttest varname1=varname2

最后编辑于：2017.12.03 04:14:50

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,948评论 6赞 492
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,371评论 3赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,490评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,521评论 1赞 284
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,627评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,842评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,997评论 3赞 408
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,741评论 0赞 268
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,203评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,534评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,673评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,339评论 4赞 330
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,955评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,770评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,000评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,394评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,562评论 2赞 349

定量数据分析笔记

推荐阅读更多精彩内容