Tassel 命令行版本使用笔记

1. 常见的基因型数据格式

1.1 Hapmap 数据格式

1 2 3 4 5 6 7 8 9 10 11 12
rs# alleles chrom pos strand assembly# center protLSID assayLSID panelLSID QCcode Line1
HAPMAP

1.2 VCF数据格式

VCF 包含9列,从第10列开始为每个样本信息。表头##开头的为注释信息,包含了 VCF 文件的版本信息,以及对INFOFORMAT列的解释。

1 2 3 4 5 6 7 8 9 10
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Line1

1.3 plink数据格式

2. Tassel软件的安装

Tassel 下载地址:https://www.maizegenetics.net/tassel

Tassel

Tassel软件可以直接下载对应平台安装包进行安装。Linux 命令行下还可以使用conda命令进行安装: conda install -c biobuilds tassel

3. 数据格式转换

3.2 VCF到Hapmap

## 添加 -sortPositions 参数,以便在转换之前进行位点排序
run_pipeline.pl -Xms10g -Xmx100g  -vcf in.vcf.gz -sortPositions -export out.hmp.txt -exportType HapmapDiploid

从 hapmap 格式到 vcf:

run_pipeline.pl -Xms10g -Xmx100g  -h in.hmp.txt -sortPositions -export out.vcf -exportType  VCF

exportType 的类型有多种:

Hapmap
HapmapDiploid
HDF5
VCF
Plink
Phylip_Seq
Phylip_Inter
Fasta
Text
ReferenceProbablity
Depth
SqrMatrix
SqrMatrixRaw (for MultiBLUP)
SqrMatrixBin (for MultiBLUP)
Phenotype
PlinkPhenotype
Table

4. 数据过滤

4.1 位点过滤

不建议使用Tassel过滤位点,建议使用 vcftools软件或者自己编写程序对不合格位点进行过滤。

run_pipeline.pl -Xms10g -Xmx100g  -h in.hmp.txt  -filterAlignMinFreq 0.05 -filterAlignMaxFreq 0.95 -export out.hmp.txt -exportType HapmapDiploid

5. 缺失基因型插补

5.1 使用 FILLIN 方法进行插补

run_pipeline.pl -Xms10g -Xmx100g -FILLINFindHaplotypesPlugin -hmp in.hmp.txt -o Donor
run_pipeline.pl -Xms10g -Xmx100g -FILLINImputationPlugin -hmp in.hmp.txt  -d Donor -o out.hmp.txt

按照染色体切分基因型文件

run_pipeline.pl -h file.hmp.txt -separate -export

计算亲缘关系

run_pipeline.pl  -Xms50g -Xmx50g  -importGuess maize.hmp.txt -KinshipPlugin -method Centered_IBS -endPlugin -export maize_kinship.txt -exportType SqrMatrix
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容