第1章 信息图形化
1、什么是统计
是一种数字:通过有意义的方式对原始事实和数据进行提炼,从而让本质和结论昭然若揭。
2.统计的研究包括什么
搜集数据、分析、下结论。
3.举例:
同样一张图,甲说利润保持稳定,没什么特别;而乙说如日中天。
启示:
利用统计,既可以昭告事实,也可以瞒天过海。
学习统计学能让自己拥有更好的手段去判断统计是否出错或蓄意误导。
移动纵轴的起始点能在视觉上放大缩小数据的变化波动(如让y轴起始点为正,就能放大利润的增长趋势)
4、
饼图体现基本比例
条形图更灵活、更精确
数据分类:数值型--数字和数量;类别数据--表述和质量
5、条形图分为:
水平条形图--展现类别数据,适用于类别名称太长时;
垂直条形图--展现数值型数据。
6、条形图体现多批数据:
堆积条形图--比较频数
分段条形图--显示比例和总频数
7.条形图标度可以是百分数或频数
8.直方图高度是频数密度=频数/组距
直方图每个长方形宽度可以不同,但记住频数=长方形面积,宽度变,高度也要变
9.累计频数和累计频数图
累计频数--到这个数值为止的频数总和
第2章 集中趋势的量度
1.均值--平均数的一般度量,用μ表示。容易受异常值影响。
2.中位数--按次序排列后的中间值,平均数的第2种度量。在数据由于异常值而发生偏斜时使用。
如有奇数n个值,则中位数在(n+1)/2个位置;如有偶数n个值,则中位数是n/2和n/2+1所在位置的均值。
注意:数据向右偏斜,均值>中位数
3.众数--平均数第3种度量。遇到类别数据时使用(当数据出现几组不同的倾向性)
第3章 分散性与变异性的量度
1.全距--度量数据分散程度,易受异常值影响。
2.四分位数--剔除异常值影响
Q1:下四分位数、第一四分位数(n/4 向上取整)
Q2:中位数
Q3:上四分位数、第三四分位数(3*n/4 向上取整)
四分位距=上四分位数-下四分位数
四分位距是50%中间数值形成的间距,能消灭所有异常值
3.百分位数
第k百分位数就是位于数据范围k%处的数值,记为Pk。
4.箱线图
如果数据向右偏斜,那么均值在中位数下方,下方的虚线比上方长。
5.方差和标准差--数据的聚散情况,通过数据与均值的距离度量数值的分布形态
方差2种计算方法
6.标准分(z分)--将不同数据集转化为通用的分布形态,在同一标准下进行比较
z=(x-μ)/σ
第4章.概率计算
1、韦恩图--概率的图形表示
2.对立事件
有ni没wo,有wo没ni,二者必有其一发生
3.互斥事件
有ni没wo,有wo没ni
4.概率树表示条件概率
5.全概率公式
如果事件B1、B2、B3…Bn 构成一个完备事件组,即它们两两互不相容,其和为全集;并且P(Bi)大于0,则对任一事件A有
P(A)=P(A|B1)P(B1) + P(A|B2)P(B2) + ... + P(A|Bn)P(Bn)。
6.贝叶斯定理--由结果找原因
7.独立事件
P(B|A)=P(B)
从而P(AB)=P(B|A)P(A)=P(B)P(A)