受 统计之都 推荐文章“如何学习统计学,或我的学习之路——初学者写给初学者”(胡江堂,2008-11-20)启发,“……在统计学习方面,你可以一开始就把自己的努力建立在一个较高的水平上:读安德森或林德。”,踏上经典阅读之路。
本读书笔记选编自:《商务与经济统计学》(原书第12版),David R.Anderson等,辛辛那提大学,机械业出版社。
第一章 数据与统计资料
1.1 开宗明义
关于本书:概念性介绍统计学及其各种应用方面的知识。
关于统计学:研究不确定性现象数量规律的方法论科学。收集、分析、表述和解释数据的科学与艺术。
关于商务统计学:统计学在商务和经济中的应用,即在商务和经济活动中,帮助管理者理解变化,做出科学正确的决策。举例:会计、财务、市场营销、生产(质量管理)、经济、信息系统等。
1.2~1.3 数据与数据来源
数据集:个体(数据实体)、变量(特征描述)、观测值(测量值)
四种测量尺度:决定了数据中的信息量,包括:1)名义尺度(可标记类别)、2)顺序尺度(可区分等级)、3)间隔尺度(可数值排序)、4)比率尺度(存在有意义的数值比),是初级到高级的“层级递进”。
分类型和数值型数据:为了统计分析的目的,对数据的进一步划分为分类型数据和数值型数据。分类型数据用上述1)2)度量,数值型数据用上述3)4)度量。注意,当数据是数值型时,算术运算才有意义,同时有更多的统计分析方法可供选择。
1.4 描述统计
描述统计:将数据以表格、图形、数值形式汇总的统计方法。如表格汇总、图形汇总(条形图、直方图)、平均数、中位数等。
1.5~1.6 统计推断、计算机与统计数据
基本概念:总体、样本、普查、抽样调查
统计推断:利用样本数据对总体特征进行估算和假设检验。例如,计算抽样数据的平均値,推断所有灯泡的平均使用寿命。
大量数据处理,需要使用计算机进行分析。
1.7 数据挖掘
数据挖掘:研究从大数据中开发有用的决策信息的方法。例如,电商的关联产品推荐等。常用的数据挖掘方法有:多元回归、逻辑回归、人工智能、机器学习等。
1.8 统计实践的道德准则
统计研究中的不道德行为:不正确的抽样,不恰当的数据分析,误导性的图表绘制,不恰当低使用统计摘要,统计结果片面解释
要保持公平、谨慎、客观、中立的态度。同时也应注意到他人在统计过程中的不道德行为的可能性。
1.9 本章小结
第二章 描述统计学一:表格法和图形法
2.1 汇总分类变量数据
频数分布:一种数据的表格汇总,表示在几个互不重叠组别中的每一组项目的个数(即频数)。如对一份饮料购买样本数据做频数汇总,出现的频数越高表明其越受欢迎。
相对频数分布:组的相对频数=组的频数/n,总和为1;其分布即数据的表格汇总。
百分比频数分布:百分比频数=相对频数x100,总和为100;其分布即数据的表格汇总。
条形图、饼形图(略):建议吧频数较小的组合合并为“其他”。
2.2 汇总 数量型数据
频数分布的定义适用于数量型数据。确定其频数分布组时,有三个必要步骤:1)确定互不重叠的组数;2)确定的宽度;3)确定组限。
实际操作:1)确定组数:一般5~20组。2)确定组宽:近似组宽=(数据最大值-数据最小值)/组数;3)确定组限:必须使每一个数据值只属于一组。4)组中值:上下限的中间值
2018.06.09 to be continued