第一章 - Python和软件生态

在这一章，我们将介绍如下内容：

使用Anaconda安装软件
使用docker安装软件
通过rpy2与R进行交互
使用Jupyter Notebook来展示R magic

介绍

我们将从安装所需的软件开始学习。其中包括Python的发行版，一些基础的Python库和扩展的生信软件。在此，我们还将关注Python之外的世界。在生信和大数据领域，R语言也扮演着重要的角色。你将会学习如何通过rpy2这个桥梁与R进行交互。我们也会通过Jupyter Notebook探索IPython框架提供的优势，可以让我们便利地与R交互。这一章将会为我们本书余下的计算生物学奠定基础。

针对不同的使用者有着不同的需求环境，我们将介绍两种不同软件安装方式。一种方法是使用 Anaconda Python (http://docs.continuum.io/anaconda/) 发行版，另一种方式则是通过Docker（一种基于容器共享同一个操作系统内核的服务器虚拟化方法——https://www.docker.com/）进行软件安装。如果你使用的是Winodws操作系统，强烈建议更换操作系统或者通过修改Windows设置使用Docker；在macOS，可以本地安装大部分软件，但也可以使用Docker。

通过Anaconda安装所需的软件

在我们开始之前，我们需要预先安装一些软件。下面部分将带你了解软件及安装它们的步骤。一个可选的方式使用Docker，之后的一切可以通过docker 容器处理好。

如果你已经使用了不同Python版本，那么强烈推荐考虑使用Anaconda，因为它已经成了数据科学的事实标准。此外，它是允许从 Bioconda 安装软件的发行版 (https://bioconda.github.io/)。

Getting ready

Python 可以在不同的环境之上运行。例如，可以在 Java 虚拟机 (JVM)（通过 Jython）或 .NET（使用 IronPython）中使用 Python。但是，在这里，我们关心的不仅仅是Python，还有围绕它的完整的软件生态；因此，我们将使用标准 (CPython) 实现，因为 JVM 和 .NET 版本的存在主要是为了与这些平台的本机库进行交互。一个可能可行的替代方案是使用 Python 的 PyPy 实现，注意不要与 Python Package Index (PyPI) 混淆。

除注明的情况外，我们将只使用Python3。如果你刚开始学习Python和生物信息，那么任何的操作系统都可以，但是在这里，我们主要关注的是中级至高级的应用。因此，虽然使用Windows和macOS是可行的，但大部分繁重的分析将在Linux系统上运行（也可能是Lunux集群上运行）。下一代测序（Next-generation sequencing ，NGS ）数据分析和复杂的机器学习大部分都在Linux计算集群上运行。

如果您使用的是 Windows，则应考虑升级到 Linux 以进行生物信息学工作，因为大多数现代生物信息学软件无法在 Windows 上运行。 macOS 几乎适用于所有分析，除非计划使用可能基于 Linux 的计算机集群。

如果你使用的Windows或者macOS，无法方便的方便地访问Linux，也无需担心。现代的虚拟化软件（诸如VirtualBox和Docker）将会拯救你，它允许在操作系统上安装一个虚拟的Linux。

Warning：如果使用Windows，那么很多工具将无法使用

Tip ：生物信息和数据科学正以惊人的速度发展；这不是大话，而是现实。当安装一些软件库时，选择版本可能会很棘手。根据代码中的依赖，它可能在一些旧版本上不可用，或者甚至在一些更新的版本上也不可用。希望使用的所有代码可以正确地标明依赖关系（尽管很难）。

本书的使用的代码存放在git仓库：https://github.com/PacktPublishing/Bioinformatics-with-Python-Cookbook-Second-Edition.git。（考虑到有些朋友访问github仓库比较慢，我在gitee上拷贝了一份，地址是：https://gitee.com/bingpeng/Bioinformatics-with-Python-Cookbook-Second-Edition.git）。为了访问git仓库，需要安装Git。可选的，你可以从github上直接下载ZIP压缩包。事实上，习惯git使用可能是一个好主意，因为很多的科学计算软件在git上面开发。（学习git推荐廖雪峰老师的git教程：https://www.liaoxuefeng.com/wiki/896043488029600）

在开始安装Python技术栈之前，将需要先安装一些额外的需要与之交互的非Python软件。安装列表随着章节而异，并且所有的章节特定的包都在其代表章节中进行解释。一些不常见的包也会在其特定章节中提及。幸运的是，从本书第一版开始，绝大部分的生信软件都能简单地通过conda基于Bioconda项目进行安装。

如果你对于特定的章节不感兴趣，那么你可以跳过相关的包和库。当然，你可能有很多其他生信软件，如针对NGS分析有bwa和GATK。因为我们没有与它们直接交互（尽管可能与它们的输出有交互），所以在此我们不会讨论它们。

你将需要安装一些编译开发器和库，所有这些都是免费的。在Ubuntu，可以使用apt-get工具；在centos，可以使用yum工具，在macOS，可以考虑Xcode（https:/ /developer.apple.com/xcode/ )。

在下面的表格中，你将发现最重要的Python软件列表：

软件列表

在大部分示例中，我们都采用了某种保守的方法处理表格。尽管我们会不时使用pandas，但大部分时候我们使用标准的Python。随着时间推移和pandas变得越来越普遍，使用pandas处理所有的表格数据可能是有意义的（如果内存合适的话）。

How to do it

查看以下步骤开始使用：

从anaconda网站（ https://www.anaconda.com/）下载发行版。选择Python3版本下载。你可以接受所有的默认安装选项，但是需要确保conda的二进制执行文件在环境变量中（别忘记开一个新的窗口使得环境生效）。如果你已有一个Python的发行版，需要注意PYTHONPATH变量和已存在的python执行文件路径。最好的方式是重置PYTHONPATH。如果可能的话，卸载其他python版本和库。
我们可以通过conda创建一个含有biopython=1.70的名叫bioinformatics的环境，命令如下：

conda create -n bioinformatics biopython biopython=1.70

激活该环境

source activate bioinformatics

添加bioconda和conda-forge的channel到软件源列表中

conda config --add channels bioconda conda config --add channels conda-forge

安装核心包

conda install scipy matplotlib jupyter-notebook pip pandas cython numba scikit-learn seaborn pysam pyvcf simuPOP dendropy rpy2

其中的部分包可能已经在核心发行版中已被安装

使用conda安装R

conda install r-essentials r-gridextra

r-essentials包含了ggplot2在内的众多R包，稍后我们会用到它。同样的，我们还安装了r-gridextra，将会在Notebook中使用到它。

（按照我自己的使用体会来看，conda确实非常好用，但不建议大家直接本地安装，可以与docker连用，在容器中安装conda和对应环境。使用conda的时候可以把源替换为清华的镜像源，具体替换方法可以见清华镜像源官网（https://mirror.tuna.tsinghua.edu.cn/help/anaconda/），速度会得到极大提升）

通过Docker安装所需软件

Docker 是实现操作系统级别虚拟化使用的最广泛的框架。这种技术允许你开启一个独立的容器：一个比虚拟机更轻量的层，但是仍允许划分（compartmentalize）软件。它隔绝了所有的进程，使得每个容器都类似一个虚拟机。

Docker 在开发范围的两个极端都运行良好：它是设置本书所需环境以用于学习目的的便捷方式，并且可能成为在复杂环境中部署应用程序的首选平台。

然而，对于长期开发环境，上一节描述的conda方法可能是最佳途径，尽管它需要更多的费劲的初始设置。

Getting ready

安装Docker环境。
（这个不赘述了，作者写的也不详细，网上教程一搜一大把，有空的时候我单独写下docker的用法。建议大家都在Linux上操作）

How to do it

查看以下步骤开始使用：

首先构建镜像

git clone https://gitee.com/bingpeng/Bioinformatics-with-Python-Cookbook-Second-Edition.git
cd Bioinformatics-with-Python-Cookbook-Second-Edition/docker
docker build -t bio .

通过镜像开启一个容器

docker run -ti -p 9875:9875 -v YOUR_DIRECTORY:/data bio

使用操作系统真实的路径替代YOUR_DIRECTORY。这个路径会被Docker容器和操作系统共享。-p 9875:9875 将开放容器的TCP端口9875到宿主机的9875端口上。

使用该系统
通过浏览器访问http://localhost:9875 就可以进入Jupyter环境了。

(基于作者的dockerfile构建镜像失败，即使deb和conda的源改为清华的源也无法构建成功，可以不基于anaconda构建，尝试从头构建该镜像；另一个选择是可以从清华下载anaconda软件，在本机上安装相关包，也可以运行成功。运行成功可以通过网页访问，如下图所示)

jupyter运行实例

通过rpy2与R进行交互

最后编辑于：2022.05.13 12:44:56

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,470评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,393评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,577评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,176评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,189评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,155评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,041评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,903评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,319评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,539评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,703评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,417评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,013评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,664评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,818评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,711评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,601评论 2赞 353

第一章 - Python和软件生态

在这一章，我们将介绍如下内容：

介绍

通过Anaconda安装所需的软件

Getting ready

How to do it

通过Docker安装所需软件

Getting ready

How to do it

通过rpy2与R进行交互

推荐阅读更多精彩内容