数据分析概述

1. 什么是数据分析?

        数据分析是指通过某种方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律等分析结果,为特定的研究或商业目的提供参考。

        从本质上看,要理解数据分析应从三个方面去把握:一是目标,数据分析的关键在于设立目标,专业上叫作“有针对性”,其实就是对业务需求的把握;二是方法,数据分析的方法包括描述性分析、统计分析、数据挖掘和大数据分析四种,不同的分析方法所使用的情景和功能都是不一样的,这需要在做数据分析时结合具体的情况选择使用;三是结果,数据分析最终要得出分析的结果,结果对目标解释的强弱,结果的应用效果如何。

2. 数据分析的步骤有哪些?

        明确分析的目的和内容:数据分析的对象是谁?数据分析的商业目的是什么?最后的结果要解决什么样的业务问题?对数据分析目的的把握,是数据分析项目成败的关键。

        数据收集:按照确定的数据分析和框架内容,有目的地收集、整合相关数据的过程,它数据分析的基础。

        数据预处理:对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。处理的过程可概括起来包括数据审查、数据清理、数据转换和数据验证四个步骤。

        第一步:数据审查

        该步骤检查数据的数量(记录数)是否满足分析的最低要求,变量值的内容是否与研究的要求一致,是否全面,包括利用描述性统计分析,检查各个变量的数据类型,变量值的最大值、最小值、平均数、中位数等,数据个数、缺失值或空值个数等。

        第二步:数据清理

        该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行“清理”,使“脏”数据变为“干净”数据,保证后续的数据分析得出可靠的结论。当然,数据清理还包括对重复记录进行删除。

        第三步:数据转换

        数据分析强调分析对象的可比性,但不同变量值由于计量单位等不同,往往造成数据不可比。对一些统计指标进行综合评价时,如果统计指标的性质、计量单位不同,则容易引起分析结果出现较大的误差,再加上分析过程中其他的一些要求,需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化、以及属性构造等。

        第四步:数据验证

        该步骤的目的是初步评估和判断数据是否满足统计分析的需要,从而决定是否需要增加或减少数据量。可以利用简单的线性模型及散点图、直方图、折线图等图形进行探索性分析,利用相关分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和有偏差的数据带入到数据分析模型中。

        数据分析:需要选用特定的数据分析方法,熟练操作数据分析工具,实现从数据到知识的分析过程。常用的数据分析方法,最基本的是要了解例如方差、回归、因子、聚类、分类、时间序列等数据分析方法的原理、使用范围、优缺点和结果的解释,熟悉“1+1”种数据分析工具,一种是Excel,一种是专业分析软件SPSS、SAS、MATLAB、R等。

        数据展现:数据分析的结果都是通过图、表的方式呈现的,能更直观地让数据分析师表述想要呈现的信息、观点和建议。常用的图形包括饼形图、折线图、柱形图/条形图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕累托图等。

        报告撰写:是对整个数据分析成果的一个呈现。首先要有一个分析框架,并且结构清晰、主次分明、图文病猫;其次,数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,更重要的是解决问题,否则称不上是好的数据分析。

3. 常用的数据分析方法有哪些?

        单纯的数据加工方法:侧重于数据的加工和预处理,使用的工具一般是SQL和Excel,描述性统计分析和相关分析

        基于梳理统计的数据分析方法:利用一元函数积分,根据概率论和微积分引出数据的分布,从数据的分布出发,进行数据的抽烟推断和假设检验,由此引出方差分析、回归分析、因子分析等基于数理统计的数据分析方法。

        基于数据挖掘的数据分析:根据历史数据得出某种规则,根据规则进行判断,例如分类。明白算法原理,计算过程一般使用计算工具完成。常用分析方法:聚类分析、分类分析(决策树、人工神经网络、贝叶斯分类方法、支持向量机、随机森林)、关联规则、回归分析。

        基于大数据的数据分析方法:理论基础是数据挖掘和分布式计算原理。大数据具有海量、快速、多样化和有价值四个方面的重要特征。

4. 数理统计与数据挖掘的区别和联系?

        联系:他们都来源于统计基础理论,因此它们的很多方法在很多情况下都是同根同源的。

        区别:数理统计常需要分析人员先作假设或判断,然后利用数据分析技术来验证该假设是否成立。在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设或判断,而是会让数据挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。

        正确运用的思路和方法:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索,最后可以根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。

5. 请举出数据分析的几个例子?

        哪些商品该不该买、哪些客户是优质客户、哪种成分的原料更利于生产、哪个班组的生产质量更稳定

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容

  • 一、产品基础分析概述 通过在网站或应用中进行数据埋点,进而获取用户对产品的使用和行为数据,并基于产品体验优化的数据...
    M小美阅读 732评论 0 4
  • 数据分析的定义 数据分析是为了提取有用信息和形成对结论而对数据加以详细研究和概括总结的过程 数据分析的分类 描述性...
    柄志阅读 312评论 0 0
  • 数据分析概述 数据分析的一般步骤 1. 明确分析目的 分析前一定要目的明确,知道自己要干什么。然后根据目的选择适合...
    羋学僧阅读 619评论 0 0
  • 最近听了网易云课堂上的一些数据分析的课程,下面是一些课程的笔记,很多都是直接截图放在上面了。相关文章:数据分析的3...
    Rockelbel阅读 858评论 0 1
  • 1. 南柯家的杂物间里有一面镜子,被一块儿沾满灰尘的白布盖着。 小的时候南柯还好奇的掀开过,没等他掀开一个角,母亲...
    年年不扫阅读 517评论 1 1