答生信从业人员的N个问题(更新非常慢)

问题链接:
http://www.jianshu.com/p/88611ef94bd7

Ubuntu 相关

  1. chmod的用途,场景

chmod即change mode, 是用于改变文件夹和文件的访问权限,如读取写入和执行。使用 ll (或者ls -l)显示文件或文件夹的详细信息,可在输出的左侧第一列了解其访问权限。
e.g.
-rw-r--r-- 一共10个字符
第一个字符显示其为文件还是文件夹,文件则为-,文件夹则为d
剩下9个字符则3个一组,每组依次表示owner, group, others的权限情况。r表示可读,w表示可写,x表示可执行。
例子中为owner可读可写不可执行,group成员和others都为只读。
知道了文件/文件夹的访问权限现状,我们可以用chmod来修改。有字母和数字两种方式来指定修改谁的权限,改成什么样的权限。

字母修改权限:
  • 指定修改谁的权限?
    a: all ; u: owner; g: group o: others
  • 修改成什么样?
    r: 可读; w: 可写; x: 可执行
  • e.g.
    $ chmod u=rwx file.txt 将owner对file.txt的权限设置为可读可写可执行
    $ chmod g-x file.txt 将group成员对file.txt的权限去掉可执行的权限
    $ chmod a+w file.txt 对所有成员对file.txt的权限添加可写的权限
数字修改权限:
  • e.g.
    $ chmod 755 file.txt 三个数字分别代表owner, group, others的权限,4为可读, 2为可写, 1为可执行,对其进行加和所得不同数字,为其权限情况。如例子中owner权限为7=4+2+1,即可读可写可执行;group和others权限为5=4+1,即可读可执行.
    除上述用途,chmod有各种option,可在其man page中查看。
  1. scp的作用

scp即secure copy,类似cp,但用于远程拷贝文件,比方说把本地文件拷到服务器上,或从服务器拷文件到本地。
e.g.
$ scp my_username@my_ip: /home/remote_dic/file.txt /home/my_local_directory
首先要在服务器上有自己的账号,且具有拷贝等相关权限,账号名为my_username,ip为my_ip
将服务器上自己账号中的/home/remote_dic/file.txt文件拷贝到本地文件夹/home/my_local_directory中
$ scp -r /home/dir1 my_username@my_ip: /home/remote_dic/XXX
将本地文件夹dir1中所有的东西(-r表示递归,将dir1中的各级文件夹逐级操作)拷贝到服务器账号my_username中/home/remote_dir/XXX文件夹中

  1. 环境变量的用途?怎么添加?

使用linux登陆后,系统会默认分配给你一个shell, 通过shell来指挥内部的硬件,与系统沟通,从而达到目的。/bin/bash是Linux默认的shell, 可以通过$ gedit ~/.bash_history 找到自己上一次登陆之前运行过的所有命令。bash十分强大,强大到它的man page三天三夜看不完。

变量是bash用于规划好“指令”的工具,好比拿着将军令给工兵分配任务一样,变量就是便捷的将军令,它间接的指代具体任务,而不用费劲把任务内容全部描述出来才执行。

环境变量控制着字符颜色的显示,文件搜索路径,home目录在哪里,使用者是谁,语系等等。
使用$ env查看所有的环境变量。包括$HOME(cd ~的回家之路),$PATH(运行文件搜索的路径,各个路径之间用:分开)。
使用$ echo $大写的变量名称 查看各个变量具体情况。

在你打开一个终端发呆的时候,便启动了一个系统分配给你的bash, 它已经执行了.bashrc文件的内容,规划好了环境配置。
你可以通过$ gedit ~/.bashrc 进行一些使用者的个人配置。比方说在里面写入alias ll='ls -alF',这样每次在终端敲ll,都执行ls -alF
你还可以不敲出绝对路径,就运行安装好的软件和程序,只要在.bashrc中配置好环境变量:
在gedit中打开它,然后在最尾一行加上export PATH=$PATH:/home/.../你要运行的软件绝对路径。最后记得要执行$ source ~/.bashrc

  1. ~/.bashrc是什么文件

...以上基本回答了这个问题。即home目录中的一个隐藏文件,~/.bashrc包含你的bash信息,当登录时以及每次打开新的终端时,该文件被读取。

  1. 命令行下的~ . / \ |分别有什么含义,是什么的缩写

~ : home目录
. : 当前目录
/ : 作为逐级目录的分隔符
\ : \n 即表示下一行内容与上一行内容相衔接
| : pipe“管子”,即将其左边的命令output作为右边命令的input

  1. ubuntu的文件系统的有深到浅,简单讲一下。一般执行程序在哪,用户在哪。
  1. 命令行下的文档编辑软件和文档阅读软件有哪些?简单讲一下怎么用?

Vim, gedit等
Vim:
安装vim后,在命令行输入$ vim即可打开vim。使用vim打开文件则$ vim text.txt
在vim中移动光标使用h(left),k(up),l(right), j(down).在ubantu中似乎使用方向键同样可以操作。
可以通过press b,e,w操纵光标的位置,在一个字段头部、尾部、下一个字段头部。
i用于启动insert功能,使你可以编辑文档。按Esc退出insert模式
:w用于保存,:q用于退出vim,:q!不保存强制退出。vim中的命令都需要以:开头。
还有在vim中不用退出运行命令行等操作,http://www.openvim.com/这是一个适合小白快速了解vim的学习教程
gedit:

  1. 乱入一个grep怎么用
    $ grep 'anything' XXXX.fasta
    基本用法,在XXXX.fast文件中找anything,会把包含有anything这一行的内容都显示出来。也可以附上多个文件,Output中会表明找出的anything是在哪个文件中的
    $ grep -n 'anything' XXXX.fasta
    可以显示出anything在文件中的第几行,并且把这些行都print出来
    $ grep -c 'anything' XXXX.fasta
    在文件中出现了anything的行共有多少行,只有数字
    $ grep -A1 '>OTU1' XXXX.fasta
    找出XXXX.fasta文件中,出现了'OTU1'的一行,下一行的内容
    可以参考这个链接,很多别的用法还是要多用几次才能记住。

  2. ..再乱入一个unzip后中文出现乱码怎么办
    $ unzip -v 'XXXX.zip'
    先不解压,查看一下会不会出现乱码
    unzip -O cp936 'XXXX.zip' -d tmp/
    出现乱码的话在Ubuntu中可以这样解决

详见这里
以及unzip的详细用法

16s微生物组

  1. OTU是什么,为什么要分OTU

OTU(Operational taxonomic unit),操作分类单元
在二代测序中,每个sample都会测到许多许多序列:
sample1: seq1, seq2, seq3, seq4, seq5...
sample2: seq1, seq2, seq3, seq4, seq5...
sample3: seq1, seq2, seq3, seq4, seq5...
...
每个序列都会有一小段barcode标记,以示它是来自哪个sample。经过一些预先处理,包括去除嵌合体,挑选不重复序列等。使用算法将相似度(similarity)为97%以上的序列放在一起,组成一个OTU。所以一个OTU内所有的序列均为相似度97%以上的,相似度不足97%的则分到其他的OTU中去。于是我们可以得到OTU_table:
即每个sample对应每个OTU中的序列reads数目。如sample1在OTU1中有2个序列reads数目。如下所示的OTU_table即丰度。相对丰度则以每个sample(每行)为100%,计算各OTU的reads数目占一个sample中所有的reads数目的百分比。
sample: OTU1, OTU2, OTU3, OTU4, OTU5...
sample1: 2, 5, 10, 13, 4
sample2: 2, 13, 10, 13, 4
sample3: 2, 53, 0, 1, 43
...
基于序列进行物种注释及后续分析是不现实的,重复且工作海量。OTU是对相似性序列进行聚类,将海量测序序列聚类成数量较少的分类单元,并且每个OTU提供一个代表序列,基于它进行后续物种注释及分析,更加简便和清晰。

  1. rarefaction curve是什么

在每个样本中不断抽样,每次都随机抽取一定数量的序列,以抽取到的序列构建OTU。其核心在于resampling。随着抽取的序列数目不断增加,其构建的OTU个数从迅速增加到趋于平坦,则说明抽样的数目合理,更多的序列不会再增加更多信OTU个数。即测序深度达到了要求。以及可以通过看每个样本的稀释性曲线高低,初步判断其物种多样性的高低。稀释性曲线较高(OTU个数较其他的样本多),则可能物种多样性高。
alpha diversity分析方法

  1. subsampling 是啥
  1. chimera 是啥

chimera(嵌合体序列)。 chimera是因为在扩增中出现了问题,导致两个来自不同DNA模板的序列被扩增为同一条序列。可以在chimera reference数据库中找到相关序列的chimera并去除。

  1. 对OTU table筛选的意义是啥,例如otu size < 2

  2. 如果分析需要做物种分布,你手头上只有个otu table和代表序列,应该怎么做

  3. biom跟otu table的区别

  4. zotu或者说ESV是什么

ESV: Exact sequence variant. Also known as an amplicon sequence variant (ASV), zero‐radius OTU (ZOTU) or simply an OTU defined by 100% sequence similarity.

  1. 该领域研究中的常规分析包含哪些。

一般来说接到一个16s常规分析的工作,从以下思路开始着手分析:注意这只是一个非常大概的思路,没有包含整理和分析的细节。

数据整理:

input_data: fastq格式的测序文件,
output_data: OTU table, tree file, 各种距离矩阵(weighted及unweighted,unifrac或者BC距离矩阵等),各OTU代表序列.fasta文件等

数据分析:

input_data: 以上整理好的各种文件,
output_data: 包括α-diversity分析结果,β-diversity分析结果,物种分布情况,测序深度及marker的挑选。最后对数据进行归纳及解读。

  • α-diversity: rarefaction curve, 对各物种多样性指数的分组比较
  • β-diversity: 根据距离矩阵(weighted或unweighted)绘制PcoA,用PERMANOVA做组间的显著性检验
  • biomarker: 根据物种注释信息整理不同物种层面(如genus, family, phylum等)相对丰度,找出在不同分组中相对丰度差异显著的物种。这类物种可以区别不同的分组,即为biomarker. 可以通过箱线图,热图,lefse软件结果图等展示结果。
  • 根据科学问题定制分析思路也是很有必要的,比方说时间序列、自身对照等各种形式的数据,需要根据具体科学问题定制分析方法。
  1. OTU picking有三种策略,有de novo,close-reference, open-reference,分别是什么含义。
一个简要的图
de novo

序列互相之间比对,按照97%(比方说)相似程度clustering,没有涉及与现有数据库的比对。其优点在于所有的reads都得到了利用,其缺点在于目前没有做到并行化,所以相当慢。qiime1的官方文档中提到,超过10 million reads的较大数据会跑的很慢。
适用情况:研究的为不常用的marker gene, 没有可以用来cluster的参考数据库;在合并分析时,如果扩增区域不重合(比方说测了V2和V4)不可以使用。

close reference

序列通过与现有参考数据库比对聚类,比对到同一参考序列则为同一个OTU。没有比对上的reads则丢弃。其优点在于会有明确的物种注释,因为参考库里的序列都有明确的物种注释。其OTU可信度比较高。其缺点在于如果没有合适的参考数据库,大部分序列比对不上参考数据库,则并不适用close reference。
适用情况:扩增区域不重合的情况下,如果要合并分析,只能使用close-reference聚类。以及因为可以并行化处理,速度比较快,适用于规模比较大的数据。

close reference使用了参考数据库,黄色的点为代表序列,即参考数据库中的序列

open reference

在close reference的基础上,将没有比对上的reads用denove。同样也不适用于不同16s序列的合并分析。


关于不同16S序列的合并分析:

比方说来自不同研究的两个16S数据,一个测了V3,一个测了V4。照上面的说法似乎只能使用open-reference来合并分析。上述提到的合并分析,都是指将两个研究的序列放在一起pick OTU。但是在缺乏合适参考数据库的情况下, 可能50%以上的序列都比对不上。可以考虑对两个研究的数据分别使用denove的方法pick OTU,分别做好物种注释,然后在genus层面合并分析。
参考:
https://peerj.com/articles/545/
qiime1 otu_picking: 各策略的优劣都有解释

R

  1. 直接从read.csv读入一个文件后,如何以某一列为遍历用的list,来进行循环。(提示:直接写循环是会报错的,需要类型转换,那么如何转换?转换成什么?)

R 只支持直接对向量集合的循环。

x <- c(3,4,5,7,9,10)
for (i in x) print (i +1)

得到:
[1] 4
[1] 5
[1] 6
[1] 8
[1] 10
[1] 11
对非向量集合的循环,转化成for i in 1: len(x), 或for i in 1:nrow(x),或使用lapply

for (i in 1:nrow(x)){
   x1 <- as.numeric(unlist(x[i,APP]))
   x2 <- as.numeric(unlist(x[i,WT]))
   MWU_test <- wilcox.test(x1,x2,conf.int = TRUE)

以上x为一个dataframe, 行为物种注释信息,列为sample_ID. APP和WT为根据sample_ID得到的,分为APP和WT两组的sample_ID.
即对每一行(每个物种)的APP和WT两组做统计检验,这里 i 起到一个指针的作用。
lapply的适用对象为Lists, 介于dataframe$coln为list, 所以可以先写好一个Fun()然后每一行进行操作。
详见 R使用笔记 17.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  • (一)基本命令 命令格式: 命令 参数 1.ls 显示文件名,等同于dos下dir命令 命令格式:ls [opti...
    飞羽孟德阅读 1,870评论 0 3
  • Ubuntu的发音 Ubuntu,源于非洲祖鲁人和科萨人的语言,发作 oo-boon-too 的音。了解发音是有意...
    萤火虫de梦阅读 99,130评论 9 467
  • 只想干个简单点,没有压力的工作。 我觉得我撑不过这个月了。 我想辞职。 我想回家。 我想休息一段时间...
    周零阅读 188评论 0 0
  • 观看电影既是对忙碌生活的一种调剂,也是自我娱乐的一种方式。在电影里感受人生,在电影外思考人生。今天给大家推荐的是爱...
    遇见更美的自己阅读 944评论 0 1
  • 每一个生命体的存在,必须具备两个最基本的特质,吸收营养和排泄废物。 小肠负责吸收营养,而排泄废物的器官包括皮肤、肺...
    张春华阅读 118评论 0 0