比较两个fasta文件的相同序列,并分别输出name

课题组之前使用的基因组有问题,尝试更换基因组时发现序列转换很麻烦,之前的老办法是使用Tbtools中的blast,但是由于

  1. CJ陈说blast程序有时会抽风,返回的第一个blast结果不是最好的结果而是第一个搜索到的结果

  2. 两个基因组为同一课题组发表的结果,有先后顺序,所以存在完全相同的序列

  3. excel处理不了超长文本的查找?我使用vlookup函数查找后报错value

于是寄希望与linux

于是向chat·地球图书馆·狂言的笑话师·不动的大图书馆·万能的许愿机·知识的暴走列车·Amadeus·gpt许愿

螺旋阶梯,独角仙,废墟街道,无花果塔,独角仙,德蕾莎之道,独角仙,特异点,乔托,天使,绣球花,独角仙,特异点,秘密皇帝,跨越了无数艰辛与失败,最终我们抵达了

准备工作为

  1. 将两个基因组cds的fasta文件重命名为1和2
  2. 将他们使用tbtools转换为table
  3. 开始呼唤

祷词为:我有两个tab分割的表格文件,1.table与2.table,两表的第二列有相同的数据,需要你找出相同数据在两表中对应的第一列,并输出为csv文件

于是祂回应了:


awk -F '\t' 'NR == FNR {a[$2] = $1; next} $2 in a {print a[$2] "," $1}' 1.table 2.table > output.csv

在该文件夹中打开终端,输入wsl,愉快的一天结束了(明天再写没匹配上的序列名提取和blast吧)


这里是三线打工人的记事本,为了免得自己忘记所以记录一下,但愿我没有需要第二次用它的时候

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容