数据分析简介
一、数据获取
1.数据获取手段
数据获取的手段主要有四种:数据仓库,监测与抓取,填写、埋点、日志,计算
1) 数据仓库
(1) 将所有业务的数据经汇总处理,构成数据仓库(DW)
- 全部事实的记录
- 部分维度与数据的整理(数据集市-DM)
(2)数据库VS仓库
- 数据库面向业务存储,仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)
- 数据库针对应用(OLTP:On-Line Transaction Processing),数据仓库正对分析(OLAP:Online analytical processing)
- 数据库组织规范,仓库可能冗余,相对变化大,数据量大
2) 监测与抓取
(1) 监测
使用监测设备或或算法直接获取数据,如传感器网络等
(2) 抓取
- 直接解析网页、接口、文件的信息
- Python常用工具
- 抓取数据: urllib、urllib2、 requests、scrapy
- 解析路径:PhantomJS(运行JS代码后才能解析)、BeautigulSoup、Xpath(lxml)
3) 填写、埋点、日志
(1) 填写
用户填写信息
(2) 埋点
- APP或网页埋点(特定流程的信息记录点,比较重要的记录项:访问、访客、停留时间、页面查看和跳出率)
(3) 日志
日志以文件的形式进行记录,分为前端日志和后端日志
(4) 计算
有些属性不能直接获取,必须通过计算才有意义
数据学习网站
- 数据竞赛网站(Kaggle & 天池)
- 数据集网站(ImageNet & Open Images)
- 各领域统计数据(统计局 、政府机构、公司财报等)
二、探索分析与可视化
1.单因子分析与可视化
1) 集中趋势:均值、中位数与分位数、众数
集中趋势:数据聚拢位置的一种衡量
均值:经常用来衡量一些连续值,尤其是分布比较规律的连续值的集中趋势
中位数:有些异常值,比如有些值特别大或或特别小的时候会有中位数来衡量它的集中趋势
众数:主要用在离散值的集中趋势衡量。
分位数: 把数据从小到大排列后,切分成等分的点。和其他几个值共同作用。常用的是四分位数。
四分位数位置的计算:
Q1的位置=(N+1)0.25
Q2的位置=(N+1)0.5
Q3的位置=(N+1)*0.75
其中,N指的是数据的数量。
例如:1,2,3,4,5,6,7
Q1是2;
1,2,3,4,5,6,7,8
Q1是2.5
2) 离中趋势:标准差、方差
离中趋势:数据离散程度的衡量。常见的是标准差和方差
3) 数据分布:偏态与峰态、正太分布与三大分布
-
偏态系数:数据平均值偏离状态的一种衡量。通常一个对称性的数据,它的中位数和均值应该是非常接近的甚至是相等的,而有的时候数据并非是对称分布的,这样中位数和均值差的就会比较多,我们称这样的分布为有偏态的分布。
如果S的值为正,为正偏,说明均值比较大;S的值为负,为负偏,均值比较小
-
峰态系数:数据分布集中强度的衡量
正态分布的峰态系数一般是3,所以将将上面的峰态公式减去3,将正态分布的峰态系数定为0。
按照上面的公式,如果一个分布的峰态系数小于1或大于5(即它和正态分布的峰态系数相差大于了2),则断定为不是正态分布。
常用的分布:正态分布、T分布、卡方分布,F分布四种。
4)抽样理论:抽样误差、抽样精度
(1)抽样的误差与精度
抽样平均误差计算公式:
重复抽样(有放回抽样):
不重复抽样(无放回抽样):
ps: N表示总体的数量;n 表示抽样的数量。
5)数据的分类
定类(类别):根据数据离散、无差别属性进行的分类
定序(顺序):可以界定数据的大小,但不能测定差值
定距(间隔):可以界定数据大小的同时,可以定差值,但无绝对零点
定比(比率):可以界定数据大小,可测定差值,有绝对零点
5)单属性分析
(1)异常值分析
(2)对比分析
对比分析:通过比较的方式达到认识与了解数据的方法。
(3)结构分析
亦称“比重分析”。计算某项经济指标各项组成部分占总体的比重,分析其内容构成的变化,从结构分析中,掌握事物的特点和变化趋势的统计分析方法。如按构成流动资金的各个项目占流动资金的总额的比重确定流动资金的结构,然后将不同时期的资金结构相比较,观察构成变化。
(4)分布分析
直接的概率分布,正态分布,极大似然