如何使用 Python 开始建立你的数据分析项目

cover

现在有很多博文对复杂的机器学习算法和前沿的技术进行了展示,而这也促使数据科学家们慢慢变成了“社交控”FOMO。但数据分析的基本内容究竟是什么样的?你应当怎样安排项目结构?你需要使用什么样的工具?等等诸如此类的问题却鲜有人问津。本文将会对如何建立项目提供一些启发思路,以帮助你快速达到 在数据科学领域能有所产出 的境界。

项目结构

项目的结构总是为了契合人们的需求而得到不断完善,这会导致在一个团队中出现不同的项目构架。如果你或者团队中的其他人能够及时发现项目结构的重要性,并且这个概念在团队中得到推广,那么,你无疑是幸运的。

多年前作者偶然发现了 R 语言的项目模板网站。从那之后,作者便一直提倡身边的人使用规范的项目结构。最近,DrivenData发布了更为普适的 Cookiecutter Data Science来构建项目结构。

而这些网站在项目构建方面的思路大致如下:

  • 一个连贯且组织良好的结构,以便于人们协作
  • 你的分析应当可复现,而你的项目结构可以满足这个需求
  • 不应该从原始数据作为出发点开始你的项目,而应当假设原始数据不变,创建其他派生的文件

作者简略的项目结构如下所示:

1

你可以在 这里 看到相关实例。

项目通常遵循另一种结构:

  • 原始数据不变,存储在 data/中;
  • 数据处理和相关输出图分别存储在不同的文件夹下,例如:figures/output/
  • 笔记文件存储在notebooks/
  • 项目信息撰写在README.md中;
  • 项目代码放置在独立的文件夹下。

实际上,你选择什么样的项目结构并不重要,只要它能符合你的工作流程,你也能坚持使用它。你应该尝试去理解何为项目,从而选择满足要求的项目结构。

虚拟环境

项目之间应当相互独立,你肯定不希望新的项目打乱了之前的工作成果。我们可以通过把不同项目的文件存储在不同的文件夹下实现独立性,但是不同项目之间也应当使用不同的 Python 环境。

虚拟环境依赖于不同的项目而相互独立,避免了包的冲突问题。每个虚拟环境都安装了特定版本的不同包。虚拟环境一中安装了版本为 1.11 的numpy库和版本为 0.18 的pandas库,而虚拟环境二中则仅仅安装了版本为 0.17 的pandas库。作者选取适用于数据科学的 conda 管理虚拟环境(可在 这里 看到选择它的原因)。

下列命令可以创建一个使用 Python 3.5 的新的 conda 虚拟环境,命名为 example_project

2

激活虚拟环境( Windows 系统下将 source 省去):

3

之后便可以安装所需的包了:


4

当你在不同的项目间跳转时,可以运行source deactivate命令取消激活,并激活新的项目虚拟环境。

一旦你熟练使用activatedeactivate命令,就会发现虚拟环境是一个很轻巧的工具来保证 Python 环境的独立。通过导出环境定义文件(例如,所有安装的包名和版本号),你的项目就很容易得到复现了。如果你想查看更多细节,可在 Tim Hopper 的博文 中看到。

Git

每个项目都应该有自己的 Git 资源库。在每个项目创建一个资源库可以帮助你追踪每个项目的历史和解决在不同的项目间复杂的版本依赖问题。

又或者,你可以选择在一个资源库中包含多个项目,将所有内容存储在一个位置。这样做的缺点在于往往会因为合并冲突问题而告终(数据科学家通常并不能熟练使用 Git )。除了很多使用 Git 时出现的问题,这也会导致你的项目之间缺乏独立性。

创建 Git 资源库最简单的方法就是在你的 Git 远程主机托管服务(例如,[Github][10] 和 [GitLab][11] )上创建一个新的 Git 资源库,然后把它复制到本地:


5

你可以在这个空文件夹下构建你的项目结构。

如果你按照这个步骤执行,并准备在一个新文件夹下创建一些文件了。那么,你首先还需要在电脑上对 git 资源库进行初始化:


6

然后在你的远程主机上创建一个新的 git 资源库,得到它的链接,并运行下列命令:


7

该命令会添加链接为 https://github.com/hgrif/example-project.git 的远程资源库,并命令为 origin 。你可能需要把现有的 master分支推送到origin上:

8

在你的项目目录下创建.gitignore文件可以避免将图或数据误填加进资源库中。作者一般使用 针对 Python 的.gitignore文件,并且在文件中加入 data/figures/output/ 文件夹,以便 Git 可以忽略它们。

既然 Git 已经设置好了,你就可以对核心内容使用git addgit commit命令了!

使用工具

使用一些工具可以帮助你摆脱那些重复性工作。

Python 中的cookiecutter包可根据模板自动创建项目文件夹。你可以使用现有的模板,例如,Cookiecutter Data Science或者 作者的项目结构模板,或是创建你自己新的模板。

使用虚拟环境最好的方法就是选用支持它们的编辑器,比如:PyCharm 。你也可以使用 autoenv 或者 direnv 去激活虚拟环境,并设置环境的变量,如果你cd定位到一个工作目录下的话。

结论

对你的数据科学项目有一个良好的设置将会有助于同其他人协作,并且项目本身也会更容易复现。一个好的项目结构,一个虚拟环境和一个 git 资源库是每个数据科学项目的基石。


原文链接:How to Start a Data Science Project in Python[

原文作者:Henk Griffioen

译作者:Vector

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,366评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,521评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,689评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,925评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,942评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,727评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,447评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,349评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,820评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,990评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,127评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,812评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,471评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,017评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,142评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,388评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,066评论 2 355

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,669评论 18 139
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 172,183评论 25 707
  • 神级身材健身房养成 减脂增肌 - 第七篇 【原创】 by Roy健身小马哥 怎么选择一个适合你的负重训练计划 现在...
    Roy健身小马哥阅读 849评论 0 0
  • 【作息】 6点起床,坚持天数:7 23点前睡,坚持天数:2 【饮食】 2L水,坚持天数:7 3333+饮食,坚持天...
    Lily向丽阅读 187评论 0 0