第一课解密大数据入门课
课堂内容梳理
一、数据科学
定义:用科学的方法从各种结构化、非结构化的数据中提取有用信息、知识的一门交叉型学科。
目标:通过数据收集、清洗、分析、可视化等过程,用数据来回答特定领域的问题,以及洞察特定领域的知识。
二、大数据相关职业分类
数据科学家(统计、以及编程)数学建模、数值分析。
数据分析师(编程、统计、业务理解能力)。
数据开发工程师(软件开发工程师的一个分支,也叫码农)大数据底层基础设施搭建,数据仓库的搭建、安全维护以及服务器日常运维和管理。
数据产品经理把数据变值为商业化的产品。
互联网广告(都是数据产品)
精准化的推荐和推送.......
数据运营(数据驱动的时代,在互联网公司尤其如此~~~~)
数据科学技能包括:数学和统计学、计算机、特定领域的业务知识,是一门特别综合的学科。
三、数据分析师
数据分析师(DA)— — 数据科学职业的一个分支
你是怎么理解数据分析的,你觉得在数据分析中最关键的点是什么?
总结:简单通俗易懂地说,数据分析就是从一堆数据中洞察知识和规律,用来支持和指导商业决策。
定义:数据分析是通过对足够体量的数据集合进行分析,以发现新颖的、有价值的且可以探索的模式。
目标:通过数据“发现”有意义的判断和知识。
模型化:将上面的发现表达为模型
反应知识的本质
能进一步预知世界
有预测能力
统计学是数据分析的核心。数据分析来于统计学,高于统计学。
四、数据分析方法论
地:了解前因后果
度:定义问题和决定的【数据指标】数据分析最关键的一步!!!
就是说,从数据的角度思考这个问题,能反应或者体现这个问题的关键指标(特征值)是什么?
量:确定采集数据的方法
数:采集数据和寻找数据特征
称:数据分析和表达
胜:解释分析结果和决策
本课程中计划要讲的统计学知识点统计学知识点:
五、统计分析和数据挖掘的区别
广义的数据分析包括数据挖掘,狭义的数据分析是指统计分析。
统计分析需要人为的去做一个判断,是假设检验。统计分析多用归纳法。
数据挖掘是通过算法去做深度的挖掘,看算法模型跑出来是什么样子的。数据挖掘多用演绎法。
演绎法:结论可从叫做前提的已知事实中必然地得出的推理。如果前提为真,则结果必然为真。
归纳法:基于对特定代表的有限观察,把性质或关系归结到类型。或基于对反复再现的现象的模式的有限观察,来推导规律。
六、Python数据分析进阶过程
学以致用,想学数据分析,先把Python数据分析必备的三个包NumPy、pandas、matplotlab用起来!!!!!
用Python去写爬虫(80%的爬虫)。
七、商业数据分析范式(高频小套路)
个人思考:就是把商业问题转化为一个能用数据去衡量和表示的数据问题。然后从数据的角度去思考和分析这个商业问题。(ps,力学问题,通过各种力学分析,数学推导,最后都转化为数学问题,力学问题,本质上就是数学问题。商业问题,可以从数据、统计分析的角度去思考和衡量,力学分析和商业数据分析,这两者在思想上有异曲同工之处。)
八、商业DA的标准流程
个人思考:你怎么看这个图的?这个图可以结合下面的商业DA的底层核心元素的图来一起思考。
九、商业DA的底层核心元素(商业DA的三驾马车)
数据指标:比如网站的数据指标、APP的数据指标、销售业务的数据指标......数据指标,就是对人性揣摩的具体数据量化。
数据字典:
数据指标,数据字典,数据标签,这三个概念容易混啊~~~
十、数据分析常用模型
漏斗分析(逐层深入分析和分解)(转化指标、转化率)。
十一、DA各行业的应用(案例研究和分组实战)
电商数据分析
O2O数据分析
SNS(社交)数据分析
房地产价格波动变化数据分析
十二、数据分析的局限(天花板)
数据分析和数据挖掘都是有边界的。任何事物都是有边界的(类比,大学又不是没学过数学和力学,天花板就是指适用范围,边界就是指成立的约束条件)。
任何事件或者结论的成立也是有前提约束条件的。
黑天鹅事件,未来不可预测。
阿里巴巴,已经把数据做到上帝视角,无所不能了。
课程时间安排,12次课左右!!!!!2个月左右~~~~~