知识向量补充WK2

12月的学习目标:(1)SQL基础(《SQL必知必会》学习与上级实践)和(2)《商务与经济统计》前13章


(1)已完成。以下重点论述分布模型-区间估计到假设检验的心得

(2).json文件导入DataFrame中发现其本身极不适应逐行插入

(3)文章最后有关于交通公开数据的彩蛋

- 概率分布模型-区间估计到假设检验

        正态分布(Normal Distribution),也就是我们大多时候面对花花世界看待宏观事物经常能用来理解的概率分布模型。定位是若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。

        在σ已知的情况下我们可以用总体的μ和σ去归一化得到Z,将一般均值和方差的分布转换成常见的正太分布,(相处的越久越发现真的很正太)。用Z可以来判断一些抽样的得到样本均值是不是在大概率分布里,如果出现与承诺不符的产品批次,如何利用置信区间去判断拒绝标准。这就涉及假设检验的范畴了。

        假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立。

        通俗的讲,就是讲我可以承担一定的犯错概率(第一类错误)来决定是否拒绝H0假设,根据就是P-值的大小,和与confidence显著性水平(什么鬼命名,故弄玄虚)比较:

switch(p):

(0, 0.01) 小概率事件,没有理由支持H0假设,拒绝并转支持Ha假设吧

[0.01, 0.05) 拒绝H0假设 ≠ 支持Ha假设

[0.05, X) 越接近1越让我们无法拒绝H0假设,但是仍需注意不同显著性水平根据拒绝H0的成本来定,特别是对一些对精度要求高的行业,例如精密机械电子,容器量器规格,α可以定的低点;碰到拒绝成本高,或者质量管理宽松的就不要定太小的啦。

还有应用于σ未知的T分布,适用于频数方差的F分布。

以上是针对抽样群体与总体的关系研究,而需要针对总体下多个变量,多种组别的关系分析,就需要用到方差分析了,  ANOVA横空出世。假设检验的分析流程原理类似,但需要用的ANOVA表可以更清晰表明整个在做什么:


SST=SSTR+SSE,自由度为N-1, 作为一个整体可以将离散量化数值分成组间,即不同变量影响下的个体分布集中区域的差异,和组内即个体分布内离散值的差异或者波动情况。因为无论总体还是处理组个体,都是对称式分布,所以自由度都是处理变量-1(因为\sum_{a}^b \bar{x} =0)进而得到mean squre 和 比值F,F值越大说明 组间的均值离差程度越高,因为分母组内离散水平不受分布均值差异的影响算是定量,所以F大-P值越小,越容易落入到小概率的区间范围,从而拒绝原零假设。

- .json文件导入DataFrame中发现其本身极不适应逐行插入

亲身经历,逐行插入行数据的时间无止境。应该先用关系型列表或者字典写入,再整体交给DF去数据框化。因为:

python - Efficiently add single row to Pandas Series or DataFrame

That's probably as efficient as any, but Pandas/numpy structures are fundamentally not suited for efficiently growing. They work best when they are created with a fixed size and stay that way. BrenBarnDec 6 '12 at 20:43

append is a wrapper for concat, so concat would be marginally more efficient, but as @BrenBarn says Pandas is probably not appropriate for updating a HDF5 file every second.If you absolutely need Pandas for some reason, could you collect a list of Series and update the file periodically instead?Matti JohnDec 6 '12 at 20:54

Bren is right about numpy/pandas working best when preallocated.If memory is no constraint just preallocate a huge zeros array and append at the end of the program removing any excess zeros.Which I suppose is a bit of what Matti is saying. –arynaqDec 6 '12 at 21:16

Intro to Data Structures

- 文末彩蛋

http://transportdata.cn/

全国首个出行数据开放与应用平台开放海量交通数据 众创决策开发服务非常棒!几乎能搜索到足够多的交通数据样例,公交线路,站点,浮动车GPS,路口三基数

https://outreach.didichuxing.com/research/opendata/

滴滴开放(需要申请API)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 通常在研究中,我们会对已有的一些结论或者主张抱有合理的质疑 reasonable doubt,此时该如何通过概率统...
    拓季阅读 11,812评论 1 17
  • 《R语言与统计分析》的读书笔记 本书的重点内容及感悟: 第三章 概率与分布 1、随机抽样 通过sample()来实...
    格式化_001阅读 6,823评论 1 12
  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,954评论 0 3
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,911评论 0 3
  • 从这个星期开始,我们公司不再发放免费纸巾了! 唯一免费的卫生纸就是放在公司厕所包间里的手纸!每天中午吃完饭都看到一...
    小婉菇凉阅读 1,377评论 1 13