在单细胞测序的轨迹推断中,我们介绍了RNA速率分析的原理,进行速率分析的前提就是需要得到未剪切的 (unspliced) 和剪切的 (spliced) mRNA信息。
这个文件需要我们从fastq文件开始,与基因组比对的到sam文件,从sam文件转成bam,再从bam中提取上面的消息,得到.loom
为后缀的文件。(参考:生物信息学常见数据格式)
loom文件的生成需要使用velocyto。针对不同的测序平台,velocyto有不同的方法进行loom文件的提取,参考官网:http://velocyto.org/velocyto.py/tutorial/cli.html#run-smartseq2-run-on-smartseq2-samples
- 安装velocyto
## 1. 创建python>3.6的环境
conda create -n velocyto python=3.6
## 2. 安装前置软件
conda install numpy scipy cython numba matplotlib scikit-learn h5py click
pip install pysam
## 3. 安装velocyto
pip install velocyto
## 4. 测试
velocyto --help
Usage: velocyto [OPTIONS] COMMAND [ARGS]...
Options:
--version Show the version and exit.
--help Show this message and exit.
Commands:
run Runs the velocity analysis outputting a loom file
run10x Runs the velocity analysis for a Chromium Sample
run-dropest Runs the velocity analysis on DropEst preprocessed data
run-smartseq2 Runs the velocity analysis on SmartSeq2 data (independent bam file per cell)
tools helper tools for velocyto
repeat_masker.gtf生成
运行velocyto需要准备三个文件,单细胞数据分析的结果文件,基因组注释文件,重复序列注释文件,其中前两个在单细胞分析时就会得到,关键是repeat_masker.gtf的生成loom文件生成
接下来是生成loom文件,运行velocyto需要准备三个文件,基因组注释文件(gtf),repeat_masker.gtf(重复序列注释文件),cellranger的结果文件夹(以样本名WT_1为例,里面包含cell matrix和bam文件)