知识向量补充WK2

12月的学习目标:(1)SQL基础(《SQL必知必会》学习与上级实践)和(2)《商务与经济统计》前13章


(1)已完成。以下重点论述分布模型-区间估计到假设检验的心得

(2).json文件导入DataFrame中发现其本身极不适应逐行插入

(3)文章最后有关于交通公开数据的彩蛋

- 概率分布模型-区间估计到假设检验

        正态分布(Normal Distribution),也就是我们大多时候面对花花世界看待宏观事物经常能用来理解的概率分布模型。定位是若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。

        在σ已知的情况下我们可以用总体的μ和σ去归一化得到Z,将一般均值和方差的分布转换成常见的正太分布,(相处的越久越发现真的很正太)。用Z可以来判断一些抽样的得到样本均值是不是在大概率分布里,如果出现与承诺不符的产品批次,如何利用置信区间去判断拒绝标准。这就涉及假设检验的范畴了。

        假设检验的基本思想是小概率反证法思想。小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为假设不成立。

        通俗的讲,就是讲我可以承担一定的犯错概率(第一类错误)来决定是否拒绝H0假设,根据就是P-值的大小,和与confidence显著性水平(什么鬼命名,故弄玄虚)比较:

switch(p):

(0, 0.01) 小概率事件,没有理由支持H0假设,拒绝并转支持Ha假设吧

[0.01, 0.05) 拒绝H0假设 ≠ 支持Ha假设

[0.05, X) 越接近1越让我们无法拒绝H0假设,但是仍需注意不同显著性水平根据拒绝H0的成本来定,特别是对一些对精度要求高的行业,例如精密机械电子,容器量器规格,α可以定的低点;碰到拒绝成本高,或者质量管理宽松的就不要定太小的啦。

还有应用于σ未知的T分布,适用于频数方差的F分布。

以上是针对抽样群体与总体的关系研究,而需要针对总体下多个变量,多种组别的关系分析,就需要用到方差分析了,  ANOVA横空出世。假设检验的分析流程原理类似,但需要用的ANOVA表可以更清晰表明整个在做什么:


SST=SSTR+SSE,自由度为N-1, 作为一个整体可以将离散量化数值分成组间,即不同变量影响下的个体分布集中区域的差异,和组内即个体分布内离散值的差异或者波动情况。因为无论总体还是处理组个体,都是对称式分布,所以自由度都是处理变量-1(因为\sum_{a}^b \bar{x} =0)进而得到mean squre 和 比值F,F值越大说明 组间的均值离差程度越高,因为分母组内离散水平不受分布均值差异的影响算是定量,所以F大-P值越小,越容易落入到小概率的区间范围,从而拒绝原零假设。

- .json文件导入DataFrame中发现其本身极不适应逐行插入

亲身经历,逐行插入行数据的时间无止境。应该先用关系型列表或者字典写入,再整体交给DF去数据框化。因为:

python - Efficiently add single row to Pandas Series or DataFrame

That's probably as efficient as any, but Pandas/numpy structures are fundamentally not suited for efficiently growing. They work best when they are created with a fixed size and stay that way. BrenBarnDec 6 '12 at 20:43

append is a wrapper for concat, so concat would be marginally more efficient, but as @BrenBarn says Pandas is probably not appropriate for updating a HDF5 file every second.If you absolutely need Pandas for some reason, could you collect a list of Series and update the file periodically instead?Matti JohnDec 6 '12 at 20:54

Bren is right about numpy/pandas working best when preallocated.If memory is no constraint just preallocate a huge zeros array and append at the end of the program removing any excess zeros.Which I suppose is a bit of what Matti is saying. –arynaqDec 6 '12 at 21:16

Intro to Data Structures

- 文末彩蛋

http://transportdata.cn/

全国首个出行数据开放与应用平台开放海量交通数据 众创决策开发服务非常棒!几乎能搜索到足够多的交通数据样例,公交线路,站点,浮动车GPS,路口三基数

https://outreach.didichuxing.com/research/opendata/

滴滴开放(需要申请API)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容

  • 通常在研究中,我们会对已有的一些结论或者主张抱有合理的质疑 reasonable doubt,此时该如何通过概率统...
    拓季阅读 11,428评论 1 17
  • 《R语言与统计分析》的读书笔记 本书的重点内容及感悟: 第三章 概率与分布 1、随机抽样 通过sample()来实...
    格式化_001阅读 6,627评论 1 12
  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,802评论 0 3
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,672评论 0 3
  • 从这个星期开始,我们公司不再发放免费纸巾了! 唯一免费的卫生纸就是放在公司厕所包间里的手纸!每天中午吃完饭都看到一...
    小婉菇凉阅读 1,349评论 1 13