Python数据分析

数据分析简介

一、数据获取

1.数据获取手段

数据获取的手段主要有四种:数据仓库,监测与抓取,填写、埋点、日志,计算

1) 数据仓库

(1) 将所有业务的数据经汇总处理,构成数据仓库(DW)

  • 全部事实的记录
  • 部分维度与数据的整理(数据集市-DM)

(2)数据库VS仓库

  • 数据库面向业务存储,仓库面向主题存储(主题:较高层次上对分析对象数据的一个完整并且一致的描述)
  • 数据库针对应用(OLTP:On-Line Transaction Processing),数据仓库正对分析(OLAP:Online analytical processing)
  • 数据库组织规范,仓库可能冗余,相对变化大,数据量大

2) 监测与抓取

(1) 监测

使用监测设备或或算法直接获取数据,如传感器网络等

(2) 抓取

  • 直接解析网页、接口、文件的信息
  • Python常用工具
    • 抓取数据: urllib、urllib2、 requests、scrapy
    • 解析路径:PhantomJS(运行JS代码后才能解析)、BeautigulSoup、Xpath(lxml)

3) 填写、埋点、日志

(1) 填写

用户填写信息

(2) 埋点

  • APP或网页埋点(特定流程的信息记录点,比较重要的记录项:访问、访客、停留时间、页面查看和跳出率)

(3) 日志

日志以文件的形式进行记录,分为前端日志和后端日志

(4) 计算

有些属性不能直接获取,必须通过计算才有意义

数据学习网站

  • 数据竞赛网站(Kaggle & 天池)
  • 数据集网站(ImageNet & Open Images)
  • 各领域统计数据(统计局 、政府机构、公司财报等)

二、探索分析与可视化

1.单因子分析与可视化

1) 集中趋势:均值、中位数与分位数、众数

集中趋势:数据聚拢位置的一种衡量
均值:经常用来衡量一些连续值,尤其是分布比较规律的连续值的集中趋势
中位数:有些异常值,比如有些值特别大或或特别小的时候会有中位数来衡量它的集中趋势
众数:主要用在离散值的集中趋势衡量。
分位数: 把数据从小到大排列后,切分成等分的点。和其他几个值共同作用。常用的是四分位数。

四分位数位置的计算:
Q1的位置=(N+1)0.25
Q2的位置=(N+1)
0.5
Q3的位置=(N+1)*0.75
其中,N指的是数据的数量。
例如:1,2,3,4,5,6,7
Q1是2;
1,2,3,4,5,6,7,8
Q1是2.5

2) 离中趋势:标准差、方差

离中趋势:数据离散程度的衡量。常见的是标准差和方差
\sigma=\sqrt{\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}

3) 数据分布:偏态与峰态、正太分布与三大分布

  • 偏态系数:数据平均值偏离状态的一种衡量。通常一个对称性的数据,它的中位数和均值应该是非常接近的甚至是相等的,而有的时候数据并非是对称分布的,这样中位数和均值差的就会比较多,我们称这样的分布为有偏态的分布。


    偏态系数

    如果S的值为正,为正偏,说明均值比较大;S的值为负,为负偏,均值比较小

  • 峰态系数:数据分布集中强度的衡量


    峰态系数

        正态分布的峰态系数一般是3,所以将将上面的峰态公式减去3,将正态分布的峰态系数定为0。
        按照上面的公式,如果一个分布的峰态系数小于1或大于5(即它和正态分布的峰态系数相差大于了2),则断定为不是正态分布。

常用的分布:正态分布、T分布、卡方分布,F分布四种。

4)抽样理论:抽样误差、抽样精度

(1)抽样的误差与精度

抽样平均误差计算公式:
重复抽样(有放回抽样):
\mu_{x}=\sqrt{\frac{\sigma^{2}}{n}}
不重复抽样(无放回抽样):

不重复抽样

ps: N表示总体的数量;n 表示抽样的数量。

5)数据的分类

定类(类别):根据数据离散、无差别属性进行的分类
定序(顺序):可以界定数据的大小,但不能测定差值
定距(间隔):可以界定数据大小的同时,可以定差值,但无绝对零点
定比(比率):可以界定数据大小,可测定差值,有绝对零点

5)单属性分析

(1)异常值分析

异常值分类.png

(2)对比分析

对比分析:通过比较的方式达到认识与了解数据的方法。

(3)结构分析

亦称“比重分析”。计算某项经济指标各项组成部分占总体的比重,分析其内容构成的变化,从结构分析中,掌握事物的特点和变化趋势的统计分析方法。如按构成流动资金的各个项目占流动资金的总额的比重确定流动资金的结构,然后将不同时期的资金结构相比较,观察构成变化。

(4)分布分析

直接的概率分布,正态分布,极大似然

2.多因子分析与可视化

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容