2018-06-09第一阶段-fungi文件的检查

一共有1035个文件夹（基因组），据说只有777个蛋白质，严格来说只有三个基因组是各自都有两个aa序列，昨天已经删除她们的就版本，于是筛选的话一共就只有777-3 = 774个基因组。
按照文件夹包含文件数量从小到达排序：
文件夹数目数量
1 148

打印所有文件夹数量只有一个文件的脚本：

import os
mydir = 'fungi'
i = 0
for root, dirs, files in os.walk('fungi'):
    for mydir in dirs:
        i = 0
        for root1, dirs1, files1 in os.walk('fungi/' + mydir):
            filenum = len(files1)
            if filenum == 1:
                print (files1)

找到之后，查看结果，发现都只有Repeatedmasked.fasta.gz 或者 .masked.fasta.gz 结尾的文件，把他们都删掉，因为他们都只是基因序列，并不是蛋白质序列。

接下来去寻找文件夹里面没有蛋白质序列的文件夹：

import os
mydir = 'fungi'
i = 0
for root, dirs, files in os.walk('fungi'):
    for mydir in dirs:
        i = 0
        for root1, dirs1, files1 in os.walk('fungi/' + mydir):
            tag = 0
            for onefile in files1:
                if onefile.endswith(".fasta"):
                    tag = 1
                    break
            if tag == 0:
                print (mydir)

将没有蛋白质序列的文件移出去

import os
mydir = 'fungi'
i = 0
for root, dirs, files in os.walk('fungi'):
    for mydir in dirs:
        i = 0
        for root1, dirs1, files1 in os.walk('fungi/' + mydir):
            number  = 0
            for onefile in files1:
                if onefile.endswith(".fasta"):
                    number = number + 1
            if number ==0:
                os.system('mv fungi/'+mydir+' fungi_without_aa/'+mydir)

于是就剩下774个基因组文件夹。这些文件夹有的没有gff文件，需要今后进一步进行筛选，目前还不清楚要不要筛选出来。
先把这774个基因组下面蛋白质的一些奇啪名字都改掉！！！
比如有一些叫做allModels.aa.fasta的，搞不清它是啥物种，赶紧改掉改掉！！！
1.把基因组目录下面的文件的文件名都改成物种文件名。

将所有的aa以_all字符串为分割字符，将All改成小写all.
接下来可以重新跑良玉的代码，跑完之后进入到跑diamond的阶段。

最后编辑于：2018.06.11 15:59:24

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

2018-06-09第一阶段-fungi文件的检查

2018-06-09第一阶段-fungi文件的检查

相关阅读更多精彩内容

友情链接更多精彩内容