第一章 数据分析初探

第1章 数据分析初探

1.1 “数据+”时代到来

1.2 什么是数据分析

用适当的统计分析方法对收集来的大量数据进行分析,提取游泳信息和形成结论,对数据加以详细研究和概括总结的过程。

1.2.1 数据分析的目标
  1. 过去发生了什么
  2. 寻找问题的原因
  3. 预测
1.2.2 数据分析的分类
  • 描述性分析:已经发生了什么
  • 预测性分析:将发生什么
  • 指导性分析:应该怎么办
  1. 描述性分析是传统数据分析的主要应用领域,使用的技术主要有基于数据仓库的报表、多维联机分析处理等,通过各种查询了解业务中发生了什么,寻找数据中的存在模式。例如,本月某类商品销售额是多少,客户平均订单价值是多少,客户留存率是多少。

  2. 预测性分析主要基于大数据(实际上也可以基于传统的数据仓库和数据库),仓用各种统计方法以及数据挖掘技术预测业务中各个方面将要发生什么。例如,基于过去几年的时间列销售数据预测明年的销售额;基于聚类分析、分类分析、逻辑回归等技术预测客户信用等级;基于关联分析预测不同商品组合可能产生的销售效果。目前各类热门的大数据方面的统计应用,包括数据挖掘技术等,都可归类到预测性分析。

  3. Prescriptive Analytics。此类分析的内在含义是它会告诉用户应该做什么以得到最优的结果。它主要采用运筹科学的方法,即运用数学模型或只能优化算法,对企业应该采取的最优行动给出建议。例如,采用数学模型确定最优的商品定价以实现利润最大化。再比如,应该怎样实现网页的最优广告位布局、生产企业最优的生产拍成、最优的劳动力排班等。

本书重点讲描述性分析与预测性分析。

1.2.3 典型的数据分析方法

数据分析与统计分析密不可分,从统计学角度,可以分为以下几类:

  • 描述性统计分析:应用统计特征、统计表、统计图等方法,最资料的数量特征及其分布规律进行测定和描述
  • 验证性统计分析:侧重于对已有的假设或模型进行验证
  • 探索性数据分析:主动再数据之中发现新的特征或游泳的隐藏信息
  1. 描述性统计分析是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简单地用几个统计值来表示一组数据的几种趋势、离散程度以及分布形状。


    1.1描述性统计分析.png
  2. 验证性统计分析是对数据模型也研究假设的验证,参数估计、假设检验以及方差分析是验证性统计分析中常用的方法。所谓参数估计就是用样本统计量去估计总体的参数。假设检验于参数估计类似,但监督不同,参数估计是利用样本信息推断未知的总体参数,而假设检验是对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。假设检验分析可分为:

  • 单样本假设检验
  • 双样本的均值比较假设检验
  • 成对样本的均值比较假设检验

方差分析则是通过比较总体各种估计间的差异来检验方差的正太总体是否具有相同的均值,是检验多因素之间差异显著性的重要统计方法,常用的方差分析方法有:

  • 单因子方差分析
  • 双因子方差分析
  1. 探索性数据分析是指对已有数据再i贾乃亮少的先假设下通过作图、指标、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。

1.3 数据分析的基本流程

1.2数据分析流程.png
1.3.1 问题定义

问题的定义通常需要分析人员对业务有深入了解,这也是经常提到的数据思维。
示例:

  • 某移动应用的新用户注册趋势如何
  • 某游戏玩家用户画像是如何
  • 经常购买电商网站某产品类的是哪类人群
  • 如何提高企业的销售额
  • 如何对用户画像,如何进行精准营销
1.3.2 收集数据
  1. 要明确上步问题对应的数据是什么,这些数据如何定义,如何度量。
  2. 考虑哪些数据是已经粗壮乃的,哪些数据需要通过对现有的数据进行加功来获得,哪些数据还没有

典型的数据获取方式:

  • 企业数据库/数据库仓库。大多数公司的销售、用户数据都可以直接从企业数据库获取。例如今年最大的50件商品的数据等。通过SQL命令可以快速完成这些工作
  • 外部公开数据。一些科研机构、企业、政府都会开放一些数据。
  • 爬虫。利用爬虫去收集互联网上的数据是经常采用的数据方式。例如,爬取淘宝上商品信息;通过爬虫获取招聘网站某一职位的招聘信息;爬取租房网站上某城市的租房信息等。
  • 实验。如果想要判断新的应用界面是否会提高用户转化率,那么可以通过实验方式来获取,就是A/B测试。针对不同的问题可以设计各种不同的实验来获取相应的数据。
1.3.3 数据处理

数据处理是指对采集到的数据进行加工整理,形成适合数据分析的央视,保证数据的一致性和有效性。它是数据分析前必不可少的阶段。

数据处理的基本目的是从大量的、可能杂乱无章的、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。

如果数据本身存在错误,那么即使采用最先进的数据分析方法,得到的结果也是错误的,不剧本任何参考价值,甚至还会误导决策。

数据处理主要包括:数据清洗、数据抽取、数据合并、数据计算等处理方法。
一般的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用。现实中的数据基本都是不完整、不一致的脏数据,无法直接进行数据分析。

数据预处理的方法:数据清理、数据集成、数据规约。

1.3.4 数据分析

数据分析阶段,需要了解不同方法使用的场景和问题。分析时切忌滥用和误用统计分析方法。

数据分析的结果通过表格和图形的方式来呈现。常用的数据图标包括饼图、柱状图、条形图、折线图、散点图、雷达图等。

可以对这些表进一步加工,变成所需的图形,如金字塔图、矩阵图、瀑布图、漏斗图、帕累托图等。这类图更加有效、直观。

1.3.5 结果解读于应用

数据分析的结果要以报告的形式展现,数据分析师如何把数据观点展示出来则值观重要。

1.4 硝烟中的数据分析

1.4.1 数据分析的产生
  • 某移动应用激活率显著下降
  • 用户购物车弃购率增加
1.4.2 验证问题
  1. 这实际上是一个问题吗?
  2. 如果是的化,这里的核心问题是什么?
1.4.3 寻找原因
  1. 寻找任何快速解决问题的可能性
  2. 询问其他团队
  3. 对可能原因进行假设
1.4.4 数据怎么说
  1. 确定并分割相关数据
  2. 探索数据
  3. 评估异常或趋势的影响
1.4.5 数据分中应该避免的典型问题
  1. 单方论证
  2. 错误因果关系
  3. 幸存者偏差
  4. 采样偏差

第2章 搭建数据科学开发环境

2.1 为什么选择Python

  • 快速开发
  • 代码简洁,容易理解
  • 语言生态健全。web、大数据、人工智能、后端服务、嵌入式
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,000评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,745评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,561评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,782评论 1 298
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,798评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,394评论 1 310
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,952评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,852评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,409评论 1 318
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,483评论 3 341
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,615评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,303评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,979评论 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,470评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,571评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,041评论 3 377
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,630评论 2 359

推荐阅读更多精彩内容