在linux下先放gz文件,用perl脚本,注意输入示例为3B.clonotypes.TRB.txt,表头是:count freq cdr3nt cdr3aa v d j VEnd DStart DEnd JStart。
用7-zip压缩成gzip,不是zip:
cd /mnt/Ocean/Shared/VDJ_pair
用vdjtools格式的txt作为输入文件:
perl 1.pl
运行
perl 1.pl ./ results
生成结果
会生成6个文件
新冠的数据生成是空的,做如下处理:
原始文件导入r包immunarch中导出成vdjtools格式,再做处理:
J.start后边4列删除
表头改成count freq cdr3nt cdr3aa v d j VEnd DStart DEnd JStart
H-K列中有NA的替换成-1
E-G列中unknown替换成.
cdr3.aa里na改.
添加到压缩包的时候把文件的WPS关掉
之前txt压缩成gzip,结果是0 。tsv压缩后perl就有结果了。
如果产生的结果里面都是0的话,说明txt的编码方式是UTF-16,要改成UTF-8