统计学基础知识

统计学基本概念

假设检验:根据一定假设条件由样本推断总体的方法。(小概率反证的思想,即在原假设成立的前提下,小概率事件在一次实验中不太可能发生,如果发生了,则认为原假设并不成立。)

假阳性:又称第一类错误,原假设实际上是正确的,但我们做出的决定是拒绝原假设,拒绝实际上成立的,为 “弃真” 错误。
可能产生的原因:1)样本极端数值;2)采用决策标准较宽松。

假阴性:第二类错误,原假设实际上是不正确的,但我们却做出了接受原假设的决定。
可能产生的原因:1)实验设计不灵敏;2)样本数据变异过大;3)处理效应本身较小。

犯Ⅰ类错误得危害较大,由于报告了本来不存在的现象,则因此现象而衍生出的后续研究、应用的危害将是不可估量的。相对而言,Ⅱ类错误的危害则相对较小,因为研究者如果对自己的假设很有信心,可能会重新设计实验,再次来过,直到得到自己满意的结果(但是如果对本就错误的观点坚持的话,可能会演变成Ⅰ类错误)。

置信水平:表示样本统计值的精确度,它是指样本统计值落在参数值某一正负区间内的概率。
置信水平:是指总体参数值落在样本统计值某一区内的概率;
置信区间:是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。

image.png

区别估算:

显著性差异:

p-value:假定值。

平均值:反映数据集中趋势。

中位数:

p1/p25/p50/p75/p99:

相关性:反映两个变量之间变化趋势的方向以及程度。
三个相关性系数(pearson, spearman, kendall)

因果性:原因和结果是揭示世界中普遍联系的事物具有先后相继、彼此制约的一对范畴。

幸存者偏差:只能看到经过筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。参考

大数定律:在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。

80/20:重要的只占20%,其余80%是次要的。

本文主要介绍:统计学基本概念、数据的收集、数据的描述、回归和分类、多元分析,其中回归和分类、多元分析是学习重点。统计学中的其它概念如:概率及分布、参数估计、假设检验属于经典统计的内容,在此文略去。

统计学:收集、处理、分析、解释数据并从中得出结论的科学。
数据分析的方法可分为描述统计和推断统计。



注意:分类变量如“行业”,其变量值可以为“零售业”、“旅游业”、“汽车制造业”;顺序变量如“产品等级”,其变量值可以位“一等品”、“二等品”、“次品”。分类变量与顺序变量均可称为定性变量、属性变量。
2.数据的收集

注意: 在抽查中可根据具体项目采取概率抽样和非概率抽样相结合的方式,收集数据也可以采用自填、电访、面访相结合的方式以节省成本。 在间接来源中,注意对二手数据评估,可以考虑:数据是谁收集的?为什么目的收集的?数据怎么收集的?什么时候收集的?避免对二手数据的错用、误用、滥用。
3.数据的描述
3.1数据的概括性度量

注意:在excel 数据---“数据分析---描述统计 中能得到所有指标值。
3.2数据的图表展示

说明:不同的箱线图对应的分布如下
注意事项:图表应简洁、合理的表达统计目的,不应在图形的修饰上花费太多时间。在绘制图形时,应避免一切不必要的装饰,注重图形所要表达的信息,图形产生的视觉效果应与数据所体现的事物特征一致,不得歪曲数据。
统计表是用于展示数据的另一个基本工具,一般由表头、行标题、列标题和数字资料组成,必要时在统计表的下方添加数据来源、变量注释和说明等。统计表的横竖比例要适当,避免出现过高或过宽的情况;表头标题应满足3W原则(when、where、what),统计表中应注明单位,表的上下两条线一般用粗线,中间的其它线用细线;通常情况下,统计表左右两边不封口,列标题之间在必要时可用竖线分开,而行标题通常不必用横线分开;表中数据一般是右对齐,有小数点时小数点对齐,小数点位数统一,对于没有数字的单元,一般用“—”表示,表中不应出现空白单元格。
4.回归与分类
4.1回归:数值型变量(因)——数值型变量(自)

image.png
  线性回归属于经典统计学,模型能够写成公式,而其它几种方式属于现代方法,模型体现在算法之中,这些方法广泛应用于机器学习或数据挖掘之中。算法模型适用范围比经典的统计模型根据广泛。在处理巨大的数据集上,在无法假定任何分布背景的情况下,在面对众多竞争模型,算法模型较经典模型有着不可比拟的优越性。   

4.2分类:分类变量(因)——数值型变量(自)

image.png
  说明:Logistic回归、线性判别分析(Fisher判别法)均属于经典统计的内容。支持向量机是基于数学模型但充分结合了计算机的算法。

4.3分类:分类变量(因)——分类变量(自)

image.png

参考:

  1. 统计学基础知识
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容

  • Chapter 6 Hypothesis Test 本篇是第6章,内容是假设检验。 1.基本思想 我们还是从问题开...
    G小调的Qing歌阅读 7,187评论 9 18
  • 那些 沿着轨道 流淌的时光 已无痕 只有铁轨 仍执着地 伸向远方 就像 有你的相伴
    话梅糖_f83d阅读 234评论 1 6
  • 关于跑步,趁假期时间总结下,只为了记录,也许若干年后,我会感激现在的自己。 从小学到初中,高中,我一直是个不爱动的...
    Good顽石阅读 313评论 1 2
  • 以琳_ 桃映满川,梅开点点,百花仙子来朝。 踏青郊野,贴彩赏红梢。 一晌贪欢逐艳,梅影外,蝶舞香涛。 一朝...
    以琳_阅读 855评论 7 10
  • 前段时间看了一个电影,丹麦的的电影《狩猎》,看得我头皮发麻。 整个电影没有血肉横飞,没有经典的动作打戏场景,完全是...
    F_先生阅读 354评论 0 2