1.为啥开始学数据分析?
偶然因素:
始于兴趣:《商务经济与统计》sars编程R语言编程 两周学完
大势所趋:
2.如何零基础学习数据分析
统计学基础:《商务经济与统计》 概率论 假设 检验 多元线性回归之前的所有章节公式自己动手写一遍还有个麦克拉夫的。。
统计工具的学习:spss傻瓜式的统计数据分析 收费 价格贵 不灵活 推荐大家学习R语言或者Python语言 学习语言的语法R语言的语法很简洁 《R in action》务必手动实现每一行代码Python学习手册,head first Python这两本还不错
方法论的学习:方法论,定性分析
数据挖掘理论与工具的学习:数据分析一般停留在业务方面的统计分析; 数据挖掘需要从数据中挖掘潜在价值, 学习建模,对具体数据抽象化,形成概括,能够得出一般的规律,一是对过去发生事情的总结,一是对未来的预测。
《数据挖掘导论》英文版 南京大学 周志华《机器学习》是好的中文入门教程 ,不过可能需要补充很多基础知识。
在每次学习新模型时,可以去R语言里找到对应的包,函数,工具库。跑一个简单的模型,体验模型的真实应用。尝试修改不同的参数,思考为何发生这样的变化。建模还是python好用,有统一的接口调用,官方文档非常齐全,学习起来比较容易。R语言比较零散,不同的作者开发了不同的包,工业上也更偏爱python。书籍推荐:《利用python进行数据分析》
除了一本《数据挖掘导论》是远远不够的,最重要的还是实践,另外推荐《数据挖掘概念与技术》原版。Mooc网站,youtube视频都可以学习。EXCel和SQL是每一个人都应该掌握的技能。
3,如何检验自学数据分析的学习效果
理论检验:给定特定的业务场景,能否使用所学知识快速定位
学习效果:你能说出原理,会实际应用,能说出各种方法的优缺点才算是优秀的。
实施检验:定位之后,能否使用所学工具快速实现
4数据分析师是怎样工作的
数据清洗特征工程:特征决定了你模型准确率的上限,而不同的算法只是无限逼近这个上限。大部分时间都是在做特征工程。
分析数据:第一步,对数据进行探索与可视化是为了对数据有更深的了解。第二部,做ppt,开会讨论。第三部,把数据扔给模型。理论不扎实,运用模型就举步维艰,因为你看不懂这里面的参数设置是什么意思。好好学习理论知识,不要一心想着怎么动手实践。
建模型与部署:让模型每天或者自动运行,基本都是部署在inux上的。
理解业务需求-量化业务数据指标-制定计划-解决问题,不要盲目在数据中寻找规律,这是没有任何意义的。
5作为数据分析师,我是如何不断提升的
1计算机知识的加强
编程语言的深入:廖雪峰python
计算机操作的深入
2理论知识的纵向与横向扩展
纵向:深入学习 机器学习 李航《统计学习方法》
横向:扩展学习。Java/web开发国外大学的公开课。
6 答疑
去大公司的网站看岗位要求而不是去招聘网站看职位要求。要有实际的作品拿出来,看过几本书侃侃而谈是没有机会的。R或者python的性价比最高。
只有学生或者做学术研究的才用matlab。找工作最好换一些开源软件。《R语言实战》竞赛平台kaggle。 gpu是用来做深度学习的。Excel、sql的培训是性价比最高的。