试验记录3
1、关于昨天无法识别参考基因组问题,看链接。
https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/advanced/references
1)需要gtf文件,但我上传的是gff文件
准备知识:gtf和gff文件的区别以及如何转换详见
https://www.sogou.com/link?url=hedJjaC291OV7dVab-QfvHtdr0qpeLU_q-AJTa7ycw4kT9jfsNhhYQ..
gtf文件的内容格式见下图:
操作:利用cufflinks中的gffread,写命令
分别将这两种基因组gff格式转换为gtf格式。
2)https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/advanced/references#mkgtf(官网链接)
https://www.jianshu.com/p/f14cb44094c9(中文简书链接)
从ENSEMBL和UCSC等网站下载的GTF文件通常包含需要从最终注释中过滤的转录本和基因。Cell Ranger提供mkgtf,这是一个简单的实用工具,可以根据GTF属性列中的键值对过滤基因。
首先用cellranger mkgtf对最初的gtf文件进行过滤。官网中命令形式见下图,通过attribute属性来筛选,其中--attribute=gene_biotype:protein_coding则是筛选出蛋白编码基因对应的记录。
写命令:
将Oar 3.1只筛选出蛋白编码基因对应的记录于Ovis_aries.Oar_v3.1.92.chr.filtered.gtf 文件中,用同样的办法对Oar4.0筛选失败,原因报错是gtf格式有问题,猜测可能是因为基因组gff格式来源不同,3.1来源于ENSEMBL,4.0来源于NCBI。
其次cellranger mkref建索引,官网中说到需要基因组文件fasta和经mkgtf过滤的注释文件filtered gtf。而--genome=output_genome则是写着输出的文件名。最基础的命令使用方式见下图:
我的命令是:
跑的过程中界面显示:
跑完之后,结果保存至ovis3.1_genome文件夹中。
再用cellrangercount,见实验记录4。
2、Cell Ranger流程概览
重点:指定fastq文件位置要求,见实验记录4
https://mp.weixin.qq.com/s/v2S8obShNRpeTRFQt2PrwQ
3、来自邮件:0121和0122样本使用的是bcl2fastq软件,将basecall files转变成FlowCell中每条lane上每个文库对应的FASTQ文件。
测序平台是Illumina NovaSeq6000,是双端测序,测序读长为150bp。文件名没有体现这些信息。
190201_A00682_0056_BHHNNKDSXX文件夹中是小测的数据,也就是第一次上机的数据,190223_A00262_0238_BHFNVVDSXX和190228_A00679_0057_BHFML2DSXX文件夹中均为大数据量上机的数据,也就是第二次和第三次上机的数据。
由于第二次上机后,数据产出没有达到合同要求的数据量,所以我们安排了加测,也就有了第三次上机。分析的时候将三次数据合并分析的。