2019-11-04 生信人的Linux考试

简书来源：https://www.jianshu.com/p/034c6cb1cf3d

在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列
（Centos 需要先用管理员身份安装tree命令）

yum -y install tree
mkdir  -p  1/2/3/4/5/6/7

在创建好的文件夹下面创建me.txt纯文本文件

touch me.txt

在纯文本文件中输入内容（可使用cat > 重定向）

cat > 1/2/3/4/5/6/7/me.txt
Go to: http://www.biotrainee.com/
I love bioinfomatics.
And you ?

删除上面创建的文件夹 1/2/3/4/5/6/7 及文本文件 me.txt
(r 为递归删除参数，非常危险！！！）

rm -fr  1

在任意文件夹下面创建 folder1~5这5个文件夹，然后每个文件夹下面继续创建 folder1~5这5个文件夹

mkdir  -p  folder{1..5}/folder{1..5}

在第五题创建的每一个文件夹下面都创建第2题文本文件 me.txt ，内容也要一样。

for dirs in folder{1..5}/folder{1..5}; do  cp me.txt $dirs; done

echo folder{1..5}/folder{1..5} | xargs -n 1 cp -v me.txt

再次删除掉前面几个步骤建立的文件夹及文件

rm -fr folder*

下载 http://www.biotrainee.com/jmzeng/igv/test.bed 文件，后在里面选择含有 H3K4me3 的那一行是第几行，该文件总共有几行。
（wget -c 代表断点续传）

wget -c http://www.biotrainee.com/jmzeng/igv/test.bed 
grep -n 'H3K4me3' test.bed
cat test.bed |wc -l

下载 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件，并且解压，查看里面的文件夹结构

wget -c  http://www.biotrainee.com/jmzeng/rmDuplicate.zip
unzip rmDuplicate.zip
tree

打开第九题解压的文件，进入 rmDuplicate/samtools/single 文件夹里面，查看后缀为 .sam 的文件，搞清楚生物信息学里面的SAM/BAM 定义是什么。
(SAM全称：sequence alignment/map format。 BAM是SAM的二进制文件(B源自binary))

cd rmDuplicate/samtools/single
less -S tmp.sam 
samtools view tmp.sorted.bam | less -SN  #查看bam文件

安装 samtools 软件

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-4.7.10-Linux-x86_64.sh

bash Miniconda3-4.7.10-Linux-x86_64.sh

source ~/.bashrc

conda --help

打开后缀为BAM 的文件，找到产生该文件的命令（暂时没看懂）。

find rmDuplicate -name *.bam

/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp

根据上面的命令，找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。

上面的后缀为BAM 的文件的第二列，只有 0 和 16 两个数字，用 cut/sort/uniq等命令统计它们的个数。

samtools view tmp.sorted.bam | less -SN| cut -f 2 | sort | uniq -c

重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件，再次查看第二列，并且统计

samtools view tmp.sorted.bam | less -SN | cut -f 2 |sort|uniq -c

samtools view tmp.rmdup.bam | less -SN | cut -f 2 |sort|uniq -c

<meta charset="utf-8">

下载 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件，并且解压，查看里面的文件夹结构，这个文件有2.3M，注意留心下载时间及下载速度
链接：https://www.jianshu.com/p/18ec5ace29da

wget -c http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
unzip sickle-results.zip
tree

解压 sickle-results/single_tmp_fastqc.zip 文件，并且进入解压后的文件夹，找到 fastqc_data.txt 文件，并且搜索该文本文件以 >>开头的有多少行？

unzip single_tmp_fastqc.zip
grep  '^>>'  fastqc_data.txt| wc

<meta charset="utf-8">

下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件，去NCBI找到TP53/BRCA1等自己感兴趣的基因对应的 refseq数据库 ID，然后找到它们的hg38.tss 文件的哪一行。[https://www.ncbi.nlm.nih.gov/gene/7157]

wget -c  http://www.biotrainee.com/jmzeng/tmp/hg38.tss
grep -n 'NR_007157' hg38.tss  # TP53
grep -n 'NM_007300'  hg38.tss # BRCA1

解析hg38.tss 文件，统计每条染色体的基因个数。

cat hg38.tss | cut -f 2| sort | uniq -c

cat hg38.tss | cut -f 2| grep -o  'chr..' |sed s/_//g |sed s/chr//g|sort -n | uniq -c

cat hg38.tss | cut -f 2| grep -o  'chr..' |sed s/_//g |sed s/chr//g|sort -n | sed s/^/chr/g |uniq -c

解析hg38.tss 文件，统计NM和NR开头的序列，了解NM和NR开头的含义
（NM开头表示转录产物序列，成熟的mRNA序列
NR开头表示非编码的转录子序列，包括RNAs,假基因转子等）

less -NS hg38.tss | grep '^NR' |wc -l
less -NR hg38.tss | grep '^NR' |wc -l

2019-11-04 生信人的Linux考试

推荐阅读更多精彩内容