染色体结构变异(sv)包括缺失、重复、倒位、易位、插入等。
SVfinder主要是基于Python开发的,能对全基因组测序分析出SV结果。
SVfinder下载地址:https://github.com/cauyrd/SVfinder
git clone https://github.com/cauyrd/SVfinder.git
预安装
Python 包:
Scipy ( http://scipy.org/ )
Numpy ( http://www.numpy.org/ )
运行 SVfinder
命令行使用
python SVfinder.py -i <input_mapped_reads.sam> -o <output.txt> [opts]
选项:
-n <int> :cutoff of number of discordant pais to define a cluster (default:2)
-l <int> :extention length to join overlaped reads together (default:1000)
-r <int> :read length (default:100)
-g <int> :gene annotation file (default:hg19.ucsc.gene.txt)
-h :produce this menu
输出
输出文件包括输出摘要文件和输出 BED 文件。不一致的读取列在后缀为“_svreads”的文件夹中。
A. 摘要文件由以下列组成:
- SV 类型(SVfinder 支持插入、删除、倒置、染色体内和染色体间易位)
- 不一致的读取对
- 1号染色体
- 位置 1 开始
- 位置 1 结束
- 方向1
- 2号染色体
- 位置 2 开始
- 位置 2 结束
- 方向2
- 注释 1
- 注释2
- 推定基因融合
B. BED 文件由以下列组成:
- 染色体
- 位置开始
- 位置结束
- chr+start+end+strand
- 方向
简单应用
SVfinder软件无需安装,下载即可使用。不过该软件是基于python2版本的,现在都是python3,直接运行会报错,需用pycharm打开SVfinder.py文件进行代码修改
- epd_python改为python
-
将SVfinder.py里所有的print修改为下图所示的python3格式,因为python3版本需要加括号。
修改script文件夹里的classify_reads.py文件,将里面的print修改为python3格式。
python SVfinder.py
运行SVfinder
nohup python /mnt/d/bioinfo/biosoft/svfinder/SVfinder-master/SVfinder.py -i /mnt/d/bioinfo/data/clean/MD18428.bwa.sam -o MD18428.sv.output.txt &
这个软件出结果的时间比较长,不清楚是不是服务器算力问题,运行了2天左右才出结果。
head MD18428.sv.output.txt
结果文件里包括插入、删除、倒位、染色体内和染色体间易位SV结构异常。