记录了一些基本概念的定义。
1. 数据
基本定义
数据(data):描述和解释所搜集,分析,汇总的事实和数字。
数据集(data set):用于特定研究而搜集的所有数据。
个体(element):搜集数据的实体。
变量(variable):个体中感兴趣的特征。
观测值(observation):对某一特定个体得到的测量值集合。
观测值个数 = 测量值个数
数据项总数 = 个体个数 * 变量总数
四种测量尺度(measure scale):
名义尺度(nominal scale):变量的数据包含了用来识别个体属性的标记或者名称时的测量尺度。
顺序尺度(ordinal scale):数据具有名义数据的性质,并且数据的顺序或者等级的意义明确时的测量尺度。
间隔尺度(interval scale):数据具有顺序数据的所有性质,并且可以按照某一固定度量单位来表示数值间的间隔时的测量尺度。
比率尺度(ratio scale):数据具有间隔数据的所有性质,并且两个数值之间的比是有意义的时的测量尺度。
数据类型:
分类型数据(categorical data):归属于类别的数据。
数量型数据(quantitative data):用于表示大小或者多少的数值。
截面数据(cross-sectional data):相同或者近似相同的同一时点上搜集的数据。
时间序列数据(time series data):几个时期内搜集的数据。
统计推断
总体(population):特定研究中所有感兴趣的个体组成的集合。
样本(sample):总体的子集。
普查(census):搜集总体全部数据的调查过程。
抽样调查(sample survey):搜集样本数据的调查过程。
统计推断(statistical inference):利用样本数据对总体特征进行估计和假设检验。
逻辑分析方法
描述性分析(descriptive analysis):包含描述过去发生状况的分析技术集合。
预测性分析(predictive analytics):包含利用过去数据建立的模型来预测未来或者评估一个变量对另一个变量的影响的分析技术。
规范性分析(prescriptive analytics):产生一个最佳行动过程的分析技术集合。在一组约束条件下产生最大或最小目标解决方案的优化模型属于规范性模型。
2. 图形描述:
数据可视化(data visualization):汇总和表述一个数据集信息的图形。
频数分布:分类型数据
频数分布(frequency distribution):数据的表格汇总方法,表示在几个互不重叠的组别中每一个项目的个数。
条形图(bar chart):描述已经汇总的频数分布信息。
饼状图(pie chart):描述相对频数和百分数频数分布的图形方法。
频数分布:数量型数据
确定频数分布值的三个步骤:
- 确定互不重叠组的组数
- 确定每组的宽度
-
确定组限
打点图(dot plot):展示数据的细节,有利于比较两个或者更多变量的数据分布。
直方图(histogram):提供了分布形态的信息。
累积频数分布(cumlative frequency distribution):就是将各类别的频数逐级累加起来进行的统计。图形与上类似。
茎叶显示(stem-and-leaf display):同时用于显示数据的等级排序和分布形态的图形显示。
茎叶显示的优点:
- 茎叶显示易于用手绘制。
- 在一个组内,茎叶显示提供了实际的数据值,因此茎叶显示比直方图提供更多的信息。
表格汇总
交叉分组表(crosstabulation):一种汇总两个变量数据的方法。
辛普森悖论(Simpson's paradox):依据综合和未综合数据得到的相反结论。
当交叉分组表包括综合数据时,应当审查是否可能存在影响结论的隐藏变量,使得分开的或未综合交叉分组表提供不同的,可能更好的见解和理论。
图形汇总
散点图(scatter plot):两个数量变量间关系的图形描述。
趋势线(trendline):显示相关性近似程度的一条直线。
复合条形图(side-by-side bar chart):对已汇总的多个条形图同时显示的一种图形方法。
结构条形图(stacked chart):每个长条被分解成不同颜色的矩形段,以与饼状图类似的方法显示每一组的相对频数。
数据可视化工具使用最广泛:数据仪表板(data dashboard)。
参考及引用资料
本人不会将以下资料用于商业用途并对其于自己的帮助表示由衷的感谢。
- << Statistics for Business and Econimics>>