用Python做数据分析是一种流行的趋势,Python的如是中天也给其他数据分析软件带来很大的压力。虽然是否能够完全替代SAS成为数据分析的主流,说法各异。但是Python的开放性、灵活性以及强大的第三方库是SAS不能比拟的。因此在这段特殊的时期,响应领导的号召,就和在家办公的小伙伴一起学习Python的数据分析基础和一些方法。
为了方便大家学习,我们把本次学习划分了两个大的阶段和四个主要部分,并对每一个部分的内容分享了一些参考资源供大家学习使用。大家在学习过程中可以参考我们提供的顺序,对于有基础的同学们则可以按照自己的情况加快进度,总之目标是能够最终实现完全基于notebook环境和python语言进行开发。
第一阶段 :与Python交朋友 (建议学习时间一周)
鉴于大部分小伙伴数据分析都是用SAS软件,可谓经验丰富,而且SAS的交互分析能力很强。因此为了降低大家迁移的成本,因此我们建议大家使用统一的开发环境和工具,也方便有问题再专属的学习群众咨询。
第一部分:环境配置(推荐学习时间1天)
本次学习我们统一使用Anaconda开发环境,Anaconda 是最广泛使用的用于数据科学的 Python 发行版,并且预装了所有常用的库和工具。除了 Jupyter 之外,Anaconda 中还封装了一些 Python 库,包括NumPy,pandas和Matplotlib,并且这完整的1000+列表是详尽的。这使你可以在自己完备的数据科学研讨会中运行,而不需要管理无数的安装包或担心依赖项和特定操作系统的安装问题。
工具下载下载地址为:
可以根据自己的需要下载不同操作系统版本的,这里建议使用python3.7版本,此外请注意自己的操作系统是否是64位还是32位。
Anaconda的安装教程参考以下两个教程,有网页和视频教程两种
安装过程可以参考以下两个教程:
网页教程:Anaconda安装教程
视频教程:Anaconda视频安装教程
打卡任务:
1.可以正常使用Jupyte Nootbook
2.通过命令行界面输入python可以查看正确的python版本信息
3.可以正常引用各种第三方应用包
第二部分 Hello World (建议学习时间2天)
Jupyter Notebook是一个非常强大的工具,常用于交互式地开发和展示数据科学项目。它将代码和它的输出集成到一个文档中,并且结合了可视的叙述性文本、数学方程和其他丰富的媒体。它直观的工作流促进了迭代和快速的开发,使得 notebook 在当代数据科学、分析和越来越多的科学研究中越来越受欢迎。最重要的是,作为开源项目的一部分,它们是完全免费的。
Notebook的交互式开发模式与SAS非常类似,不同的是Jupyter Notebook是基于Web模式的,在使用上与SAS本地数据读取有较大差别。虽然Web模式在方便程度上不如本地客户端,但是在将来大数据领域中,Web模式更容易实现与数据平台集成,而且在资源使用上也会有较大优势。
网页版学习教程:
视频版学习教程:
以上教程仅供参考,大家也可以自行寻找适合自己的教程
打卡任务
1.掌握Notebook操作方法
2.可以运行完整的Notebook程序
第三部分:使用Jypyter notebook学习python的基本知识(建议3天时间)
自从1991年诞生以来,Python现在已经成为最受欢迎的动态编程语言之一,其他还有Perl、Ruby等。由于拥有大量的Web框架(比如Rails(Ruby)和Django(Python)),自从2005年,使用Python和Ruby进行网站建设工作非常流行。这些语言常被称作脚本(scripting)语言,因为它们可以用于编写简短而粗糙的小程序(也就是脚本)。我个人并不喜欢“脚本语言”这个术语,因为它好像在说这些语言无法用于构建严谨的软件。在众多解释型语言中,由于各种历史和文化的原因,Python发展出了一个巨大而活跃的科学计算(scientific computing)社区。在过去的10年,Python从一个边缘或“自担风险”的科学计算语言,成为了数据科学、机器学习、学界和工业界软件开发最重要的语言之一。
在数据分析、交互式计算以及数据可视化方面,Python将不可避免地与其他开源和商业的领域特定编程语言/工具进行对比,如R、MATLAB、SAS、Stata等。近年来,由于Python的库(例如pandas和scikit-learn)不断改良,使其成为数据分析任务的一个优选方案。结合其在通用编程方面的强大实力,我们完全可以只使用Python这一种语言构建以数据为中心的应用。
下面提供Python学习的基础教程
网页版教程:
python在线学习教程(基础篇) (只需要学习基础篇部分即可,进阶篇一些内容涉及到更多数据分析外的高阶应用,可以等待以后在学习)
视频教程:
打卡任务:
1.完成python的基础篇相关内容
2.完成"Hello World"
3.掌握和数据Python的数据结构
4.熟悉和掌握Python函数的相关用法
第二阶段 利用Python进行数据分析(建议学习时间一周)
进入第二阶段主要是通过notebook编写数据分析程序,这一部分对于经验丰富的数据分析人员来说,主要是需要熟悉Python的两个关键的基础包:Numpy和Padndas,这两个作为python的数据分析的基础工具包,功能强大,简单易用。尤其适合交互式数据分析业务。以下教程来自一本非常著名的教材。大家可以根据需要学习其中的章节,没有必要完全章节循序渐进。
网页版教程:
打卡任务:
1.掌握Numpy的概念和用法
2.熟悉pandas的概念和用法
3.掌握数据加载和清晰的基本步骤和用法
4.使用样本数据完成清洗、载入和重算的任务
最后提供一个Python的手册链接和一个python3的教程链接用于查询函数和使用方法
下面这个教程有一些实例给有兴趣的小伙伴参考: