大师兄的数据分析学习笔记(三):探索性数据分析(二)

大师兄的数据分析学习笔记(二):探索性数据分析(一)
大师兄的数据分析学习笔记(四):探索性数据分析(三)

三、单因子与可视化

3. 偏态与峰度
3.1 偏态系数
  • 偏态系数是指对数据分布对称性的测度。
  • 对称性分布数据的中位数均值应该是非常接近或相等的;
  • 换而言之,偏态系数就是计算偏态数据中位数均值之间的关系。
  • 偏态系数公式:sk = \frac{\mu_3}{\sigma^3} = \frac{E[(X - \mu)^3]}{(E[(X - \mu)^2])^\frac{3}{2}}
  • 0.5<\mid sk\mid<1 中等偏态
  • sk=0 对称,无偏态
  • sk>0 右偏,sk>0 左偏
>>>import pandas as pd
>>>test_data = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1, 5, 6, 1, 1, 2]
>>>test_data = pd.Series(test_data)
>>>skewness = test_data.skew()
>>>print('偏态系数:',skewness)
偏态系数: 1.2150779271256849
3.3 峰态系数
  • 峰态系数是对数据分布集中强度的衡量。
  • 公式:K=\frac{V_4}{\sigma^4} = \frac{E[(X-\mu)^4]}{(E[(x-\mu)^2])^2}
  • 正态分布的峰态系数为3,如果一个数据的峰态系数小于1或大于5,则可以断定不是正态分布。
  • K>0为尖峰分布。
  • K<0为偏平分布。
>>>import pandas as pd
>>>test_data = [1, 2, 3, 4, 1, 2, 3, 1, 2, 1, 5, 6, 1, 1, 2]
>>>test_data = pd.Series(test_data)
>>>kurtosis = test_data.kurt()
>>>print(kurtosis)
0.6895144727113385
4. 数据分布简介
4.1 正态分布
  • 统计学中常见的连续概率分布。
  • 概率密度函数:f(x)=\frac{1} {\sqrt{{2\pi}}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
  • 期望:E(X)=\mu
  • 方差:D(X)=\sigma^2
>>>import numpy as np
>>>import matplotlib.pyplot as plt
>>>from scipy import stats as ss

>>>mean,var,skew,kurt = ss.norm.stats(moments="mvsk")
>>>print(f"均值:{mean}")
>>>print(f"方差:{var}")
>>>print(f"偏态系数:{skew}")
>>>print(f"峰态系数:{kurt}")
均值:0.0
方差:1.0
偏态系数:0.0
峰态系数:0.0

>>>fig,ax = plt.subplots(1,1)
>>>x = np.linspace(ss.norm.ppf(0.01),ss.norm.ppf(0.99),100)
>>>ax.plot(x,ss.norm.pdf(x),label="norm pdf")
>>>ax.legend()
>>>plt.show()
4.2 卡方分布
  • k个相互独立的随机变量 ,均服从标准正态分布(均值为0,方差为1),则这k个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。
  • 卡方分布可以用来检验模型的适合性和变量的独立性等。
  • 数学定义:
  • 若k个随机变量Z_1...Z_k是相互独立,符合标准正态分布的随机变量;
  • 则随机变量Z的平方和为X=\sum_{i=1}^k{Z_i^2};
  • X ~ X^{2(k)} X ~ X_k^2 被称为服从自由度为k的卡方分布。
  • 概率密度函数:f_k(x)=\frac{1}{2^\frac{k}{2}Γ(\frac{k}{2})}x^{\frac{k}{2}-1}e^{\frac{-x}{2}}
>>>import numpy as np
>>>import matplotlib.pyplot as plt
>>>import random
>>>from scipy import stats as ss

>>>x = np.linspace(0,20,100)
>>>for i in range(5):
>>>    plt.plot(x,ss.chi2.pdf(x,df=random.randint(1,10)),label=f"df{i+1}")
>>>plt.legend()
>>>plt.show()
4.3 t-分布
  • t-分布是指正态分布的一个随机变量除以一个服从卡方分布的变量,用于根据小样本来估计呈正态分布且方差未知的总体的均值。
  • 公式:T=\frac{X-\mu} {\frac{S_n}{\sqrt{n}}}
  • 概率密度函数:f(t)=\frac{Γ(\frac{v+1}{2})}{\sqrt{v\piΓ(\frac{v}{2})}}(1+\frac{t^2}{2})^{\frac{-(v+1)}{2}}
>>>import numpy as np
>>>import matplotlib.pyplot as plt
>>>from scipy import stats as ss

>>>x = np.linspace(-3,3,100)
>>>plt.plot(x,ss.t.pdf(x,1),label='df=1')
>>>plt.plot(x,ss.t.pdf(x,100),label='df=100')
>>>plt.plot(x[::5],ss.norm.pdf(x[::5]),'kx',label='normal')
>>>plt.legend()
>>>plt.show()
4.4 f-分布
  • f分布是由构成两个服从卡方分布的随机变量的比构成,常被用于似然比检验。
  • 如果随机变量X有参数为 d_1和d_2的F-分布,写作:X~F(d_1,d_2)
  • 概率密度函数:f(x;d_1,d_2)=\frac{1}{B(\frac{d_1}{2},\frac{d_2}{2})}(\frac{d_1}{d_2}^\frac{d_1}{2})x^{\frac{d1}{2}-1}(1+\frac{d_1}{d_2}x)^{-\frac{d_1+d_2}{2}}
>>>import matplotlib.pyplot as plt
>>>from scipy import stats as ss

>>>x = []
>>>count = 0
>>>for i in range(50):
>>>    count = round(count+0.1,2)
>>>    x.append(count)
>>>plt.plot(x,ss.f.pdf(x,20,20),label='df=f(x,20,20)')
>>>plt.plot(x,ss.f.pdf(x,10,50),label='df=f(x,10,5)')
>>>plt.plot(x,ss.f.pdf(x,100,100),label='df=f(x,100,100)')
>>>plt.legend()
>>>plt.show()
5. 抽样理论
5.1 抽样方式
抽样类型 介绍
简单随机抽样 当总体个数较少时,设一个总体个数为N,如果通过逐个抽取的方法抽取一个样本,且每次抽取时,每个个体被抽到的概率相等,这样的抽样方法为简单随机取样。
系统抽样 当总体的个数比较多的时候,首先把总体分成均衡的几部分,然后按照预先定的规则,从每一个部分中抽取一些个体,得到所需要的样本,这样的取样方法叫做系统抽样。
分层抽样 取样时,将总体分成互不交叉的层,然后按照一定的比例,从各层中独立抽取一定数量的个体,得到所需样本,这样的抽样方法为分层取样。
整群抽样 整群取样又称聚类抽样。是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为取样单位抽取样本的一种抽样方式。
多段抽样 多段随机抽样,就是把从调查总体中抽取样本的过程,分成两个或两个以上阶段进行的抽样方法。
PPS抽样 即概率与元素的规模大小成比例的抽样。其原理可以通俗的理解成以通过阶段性的不等概率抽样来换取最终的、总体的等概率抽样的方法。
户内抽样 从所抽中的每户家庭中抽取一个成年人,以构成访谈对象的过程。
偶遇抽样 是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象的方法。
判断抽样 调查者根据研究的目标和自己主观的分析来选择和确定调查对象的方法。
定额抽样 依据那些有可能影响研究变量的各种因素对总体分层,并找出具有各种不同特征的元素在总体中所占的比例。然后依据这种划分以及各类成员的比例去选择符合要求的对象的方法。
雪球抽样 当无法了解总体情况时,可以从总体中少数成员入手,向他们询问其他符合条件的人,再去找那些人并再询问他们知道的人。如同滚雪球一样。
图像抽样 在图像区域的一些特定位置上取出图像的亮度值(或色度值),以此作为原图像的一种替代,这一过程就称作图像的抽样,而每一个抽样的位置称为抽样点,该点的亮度值(或色度值)就是抽样值 。
5.2 抽样误差与精度

(1) 抽样平均误差计算公式:

  • 重复抽样:\mu_X=\sqrt{\frac{\sigma^2}{n}}
  • 不重复抽样:\mu_X=\sqrt{\frac{\sigma^2}{n}(\frac{N-n}{N-1})}
  • 假设对男学生体重进行抽样,共有学生2000人,男生平均体重70公斤,标准差15公斤,95.45%概率保证,估计平均重量的误差值:
>>>import math

>>>n = 2000
>>>d = 15
>>>m = round(math.sqrt((d^2)/n),2)
>>>print(f"平均重量误差值为{m}公斤")
平均重量误差值为0.08

(2) 估计总体时抽样数目的公式:

  • 重复抽样:n=\frac{Z_{\alpha/2}{{\delta^2}}}{\Delta^2}
  • 不重复抽样:n=\frac{NZ_{\alpha/2}{{\delta^2}}}{N\Delta^2+Z_{\alpha/2}{{\delta^2}}}
  • 假设对男学生体重进行抽样,共有学生2000人,标准差15公斤,误差不超过0.08公斤,95.45%概率保证,估计平均重量,需要多少学生样本:
>>>import math

>>>m = 0.08
>>>d = 15
>>>Z = 2
>>>N = 2000
>>>n = (N*Z*math.pow(d,2))/(1000*math.pow(m,2)+Z*math.pow(d,2))
>>>print(f"需要{n}个样本。")
需要1971.9544259421561个样本。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容