数据分析流程:
1、明确问题:必须明确数据分析的真实目的,也便于后续分析策略的选取。
2、理解数据:数据收集和探索,如爬虫、API、设备的实测数据等。
3、数据清洗:一个数据分析项目大部分时间花在数据清洗上,如去除垃圾数据,空值,异常值,整理成适配的格式等。
4、数据分析和测试:选择合适的方法对清洗后的数据进行分析,并且测试其准确性。
5、可视化和建议:对结果进行可视化展示和结果解读,数据有价值的结论和建议
数据分析方法:
1、常规分析
从Hive、MySQL中导出数据到EXCEL\Tableau,构建核心指标、计算常用统计计量,及相关同比、环比等,借助表格、图形等方式输出日\周\月报或各维度比对、占比趋势。
1)监控日\周\月报:监控指标,若波动环比较大的话,需要一步步分析查找原因
2)帕雷托分析法:又叫ABC分类法,主次因素分析法。在决定事物的众多因素中识别出少数几个但对结果起决定作用的关键因素,并分别以这些因素为维度,分析其相对于总体的占比等趋势。比如认为广告效果受投放渠道影响较大,可将效果(PV\UV\成单量等)按抖音快手百度等渠道维度聚合,对比占比,可进一步分析出哪些渠道效果好,哪些急需优化,甚至暂停投放。
3)环比:本周环比上周,今年环比去年。
如 环比增长率=(本周-上周)/上周×100%
同比:本周一同比上周一,今年6月同比去年6月。
如 同比增长率=(本周一 - 上周一)/上周一×100%。
2、算法模型分析
当数据达到一定量,希望挖掘业务数据,比如:a.预测成单量、DAU趋势;b.用户分群、构建目标用户画像;c.关联商品推荐(哪些商品被同时购买的几率高)等等。
可借助下面较为成熟的算法模型进行分析,若仍不满足业务需求,可考虑自建算法调参优化:
监督学习
分类:将数据划分到合适的分类中(目标变量是离散型)。
回归:预测数值型数据(目标变量是连续型)。
无监督学习
聚类:将数据集合分成由类似的对象组成的多个类。
密度估计:寻找描述数据统计值,可聚类分组且估计数据与每个分组的相似程度。
降维:减少数据特征的维度,以便使用二维或三维图形更加直观地展示数据信息。
具体算法介绍和Python代码实现可见下方: