《谁说菜鸟不会数据分析》读书笔记
数据分析六部曲:首先要明确分析目的和思路,然后是数据收集 ,其次是将收回来的数据进行处理 ,第四步是根据分析目的和思路进行数据分析,第五步是将分析出来的结果通过图标的形式展现出来,最后是撰写数据分析报告。
一、明确分析目的和思路
数据分析方法论主要从宏观角度指导如何进行数据分析,就像前期规划一样,指导着后期数据分析工作的开展,比如,主要从哪几方面开展数据分析?各方面包含什么内容和指标?
数据分析方法论—营销方面的理论模型有4P(用于公司整体经营情况分析)、用户使用行为STP理论、SWOT理论等,管理方面的理论模型有PEST(用于行业分析)、5W2H(用于用户行为、业务专题等)、时间管理、生命周期、逻辑树(用于业务问题专题分析)、金字塔SMART原则等。
PEST分析法对互联网行业的分析框架举例:P—政治方面,国家出台哪些相关政策?有什么影响?制约还是促进?;相关法律有哪些?有何影响?E—经济方面,GDP及增长率、进出口总额及增长率;消费价格指数、失业率、居民可支配收入S—社会方面,中国网民与中国公民在人口规模、性别比例、年龄结构、人口分布、生活方式、购买习惯、教育状况、城市、宗教信仰状况等方面,网民与全国人们有什么区别?T—技术方面,技术的发明、技术传播、更新、商品化速度、技术发展趋势;国家重点支持项目、国家投入的研发费用、专利个数……
逻辑树分析法是分析问题最常使用的工具,他将所有与问题相关的东西罗列出来,并逐步向下扩展。逻辑树分析法在利润分析中的应用:
用户行为理论
5W2H分析理论
二、数据收集
理解数据——数据分为字段和记录,字段是学号、姓名、成绩等……,记录是111406136、张三、234分等……数据的类型可以分为两大类,字符型数据和数值型数据,字符型数据是不具备计算能力的文字数据类型,包括中文字符、英文字符等……,而数值型数据是直接使用自然数或者度量单位进行计量的数值数据。数据表由字段、记录和数据类型构成。数据表的设计要求:它由标题行和数据部分组成;第一行是表的标题(字段名),列标题不能重复;第二行起时数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出现空白行和空白列;数据表中不能有合并单元格存在;数据表与其他数据之间要留出至少一个空白行或空白列;数据表需要以一维的形式存储。
数据来源——获取数据的方式有两种,导入外部数据和自己录入数据。导入外部数据的常见来源有两种:文本和网站数据来源,将文本或者网站数据导入Excel中。还有调查问卷数据的录入问题等
三、数据处理
数据处理要做到有信心、细心、平常心、诚意、合意,统称为“三心二意”理论
数据处理首先要数据清理,然后再数据加工,数据清理包括三部分内容:清除掉不必要的重复数据、填充缺失的数据、检测逻辑错误的数据。
用Excel找出重复数据的方法:CUONTIF函数、筛选、条件格式、数据透视法。
处理缺失值的方法:用平均值代替、用统计模型计算出来的值替换、删除有缺失的列或行。定位条件+Ctrl Enter、查找替换
检测逻辑错误的数据:使用IF函数和条件格式来标记错误。
数据加工是指由于数据表中的数据字段不满足我们的数据分析需求,因此要对现有字段进行抽取、计算或者转换,形成新的数据字段。
�ܹ���t