标签(空格分隔): 数据挖掘 python 数据可视化
对于任何一个企业,经验丰富、技巧娴熟的分析师都是企业的优秀资产。但一切都不是天生的,良好的个人规划是保障数据分析师迅速成长的关键。
数据理解
1、数据采集
1、了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。很大程度上可以避免"垃圾数据进导致垃圾数据出"的问题。
例子:当用户在离线状态下使用APP时,数据因无法联网而不能发出,导致正常时间内的数据统计分析延迟。直到该设备下次联网时,数据才能被发出并归入当时的时间,就产生了不同时间看相同历史时间的数据时会有出入
2、数据存储
- 数据存储系统是Mysql,Oracle,sql server,还是其他系统。
- 数据仓库结构及各库表如何关联,星型、雪花型,还是其他。
- 生产数据库接收数据时是否有一定的规则,比如只接收特定类型的字段。
- 生产数据库面对异常值如何处理,是强制转换、留空,还是返回错误。
- 生产数据库及数据仓库系统如何存储数据,名称,含义,类型,长度,精度,是否可以为空,是否唯一,字符编码以及约束条件规则是什么?
- 接触到的数据是原始数据还是ETL后的数据,ETL规则是什么?
- 数据仓库数据的更新机制是什么?是全量更新还是增量更新?
- 不同数据库和库表之间的同步规则是什么?哪些因素会造成数据差异?如何处理差异?等等。
在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断地进行动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候因软硬件、内外部环境问题无法得到保证,这些都会导致后期数据的应用问题。
- 什么是数据仓库
- 什么是ETL
3、数据提取
数据提取是将数据取出的过程。数据提取的核心环节是从哪取?何时取?如何取?
- 从哪取?数据来源 --- 不同的数据源得到的数据结果未必一致。
- 何时取?提取时间 --- 不同时间取出来的数据结果未必一致。
- 如何取?提取规则 --- 不同提取规则下的数据结果很难一致。
数据提取阶段,首先要求数据分析师具备数据提取能力。常用的Select From 语句是SQL查询和提取的必备技能,但即使是简单的提取数据工作也有不同的层次。
1、第一层是从单张数据库中按条件提取数据的能力
2、第二层是掌握跨库表提取数据的能力,不同的join有不同的用法;
3、第三层是优化SQL语句,通过优化嵌套,筛选的逻辑层次和遍历次数等,减少浪费个人时间和消耗系统资源。
数据分析师必须具备理解业务需求的能力,比如业务需要“销售额”这个字段,相关字段至少有产品销售额和产品订单金额,其中的差别在于是否含优惠券、运费等折扣和费用。订单金额包含了应用优惠券等因素,计算逻辑是在产品销售额(产品单价*数量)的基础上增加运费,再减去优惠券、促销折扣后的价格,该价格是用户应该支付的金额。
4、数据挖掘
数据挖掘是面向海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则:
- 没有最好的算法,只有最合适的算法,算法选择的原则是兼具准确性、可操作性、可理解性、可应用性。
- 没有一种算法能解决所有的问题,但是精通一门算法可以解决很多问题。
- 在挖掘算法中最难的是算法调优,同一种算法在不同场景下的参数设定相同。实践是获得调优经验的重要途径。
需要掌握的与数据挖掘相关的能力:
一是数据挖掘、统计学、数学基本原理和常识;
二是熟练使用一门数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序员出身也可以选择编程实现;
三是需要了解常用的数据挖掘算法,以及每种算法的应用场景和优劣差异点。
5、数据分析
相对于数据挖掘,数据分析更多地偏向于业务应用和解读,在经数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义?如何将挖掘结果反馈到业务操作过程中以便业务理解和实施是关键。
6、数据展现
数据展现即数据可视化的部分,也就是数据分析师如何把数据观点展示给业务的过程。
7、数据应用
数据应用是数据具有落地价值的具体体现,这个过程需要数据分析师具有数据沟通能力,业务推动能力和项目工作能力。
- 数据沟通能力。深入浅出的数据报告、言简意赅的数据结论更利于业务理解和接受,打比方、举例子都是非常实用的技巧。
- 业务推动能力。在业务理解数据的基础上,推动业务落地实现数据建议。从业务最重要、最紧急、最能产生效果的环节开始是个好方法,同时要考虑到业务落地的客观环境,即好的数据结论需要具备客观的落地条件。
- 项目工作能力。数据项目工作是循序渐进的过程,无论是一个数据分析项目还是数据产品项目,都需要数据分析师具备计划、领导、组织、控制的项目工作能力。
对与网站数据分析师的具体要求如下:
- 了解基本的网站数据分析和数据工具,网站分析工具如Google Analytics 、百度同级、Adobe Analytics、Webtrekk等;数据分析工具如Excel、SPSS、Clementinel、SAS、R等,了解不同工具有哪些功能及差异点。
- 了解网站分析及数据分析的基本概念、定义和规则,比如需要清楚UV、PV、Visit、IP的区别以及数据差异的影响因素。
- 了解互联网工作的基本机制,掌握基本的HTML语言、编程语言规则和JavaScript规则,如果还能了解一些Cookie、缓存机制、HTTP信息会更有利于后期的发展。
- 了解所服务的业务对象、如营销业务、网站运营业务、会员相关业务等,理顺各种业务的具体含义、范畴、流程等,并且能把数据与业务工作关联起来。
数据分析师的5点建议
1、数据是有立场的,立场决定解读
(数据对于业务来讲既是KPI的衡量标杆,又是业务的行动指南。有立场的数据直接影响数据解读,影响着业务的行动趋势。)
2、数据质量永远是数据分析立项后首先要考虑的
(数据质量验证:
1、理解数据来源、数据统计和收集逻辑,以及数据入库处理逻辑;
2、理解数据在数据仓库中存放的细节,包括字段类型、小数点位数、取值范围、规则约束等;
3、明确数据的取数逻辑,尤其是在过程中是否对数据有转换或者重新定义;
4、第一时间对数据做数据审查,包括数据有效性验证、取值范围、空值和异常值验证,确定其是否与原始数据原则一致等。)
5、业务应用能力和工具应用能力都重要,不要迷信算法和模型
(很多数据分析师会过度关注算法和模型在数据分析过程中的作用。但其实在面向业务类的实际工作中,业务要的不是多少种算法或模型,而是要面对业务问题的解决方案。)
6、业务需求是数据分析的起点,但之前需要培养业务的数据意识
业务需求是数据分析的起点,很多时候数据分析师在“等”业务方提出需求,然后通过数据支撑业务方更好地开展工作。但实际情况却是业务方不需要数据,这种现象既可能是传统习惯造成的,也可能是公司文化影响的,甚至可能是个人因素导致的。
数据分析师不能要求业务方必须懂数据、理解数据,但是需要告诉业务方数据能解决什么问题、带来哪些改进与提升,如何帮助他们解决实际问题等数据价值告知业务,如何能用数据证明其提升价值会更有说服力。这样业务方才会相信数据的有效性、真实性、准确性。