最近刚好写了一篇关于耐药基因相关分析的常规文章,分享一下最近的经验,方便大家借鉴参考我使用的是card,conda 安装abricate工具,写了个脚本,对60个菌株fasta文件自动分析保存(后面会出视频讲解耐药基因的分析全过程)
创作不易,麻烦大家点赞关注!!!
您的关注是我不断前进的动力!!!
如何获得耐药基因
如何从基因组中获取耐药基因?我们在基因组测序后进行组装获得了fasta文件,获取耐药基因的另一个关键步骤就是基因注释,也就是识别基因组中哪些部分可能涉及耐药性。这时,耐药基因数据库就发挥了至关重要的作用。以下是几个常用的耐药基因数据库:
CARD(抗药基因数据库)Comprehensive Antibiotic Resistance Database(综合抗生素耐药性数据库)CARD 是目前最为广泛使用的抗生素耐药基因数据库,由加拿大安大略省的McMaster大学开发的
ResFinder(Resistance Gene Finder):丹麦哥本哈根大学(University of Copenhagen)的DTU Food开发并维护的在线工具
ARGANNOT(AntibioticResistanceGeneAnnotation)(抗生素耐药基因注释)法国的INRA(法国国家农业研究院)*开发的一个在线平台我使用的是card,conda 安装abricate工具,写了个脚本,对60个文件自动分析保存,每一个都会获得一个tab文件(表格的文本形式可以和EXCEL互换格式),脚本和tab文件如下图
因为不同的菌株有不同的耐药基因,我需要利用脚本先把这60个tab文件合并到一张表格,然后利用脚本统计出每一个耐药基因出现的次数,这里一共出现了71种耐药基因,平均每个菌株含有48个耐药基因,按照出现次数排序之后,这个时候可以做一个柱状图
这里涉及到两个概念,一个是抗生素的分类(很多都是简写好难分表),还有一个就是耐药基因的分类,这个需要借助人工智能来帮你总结一下,因为网上查资料真的很难查,试了Deepseek和Chatgpt,哈哈,Chatgpt更胜一筹哦
耐药基因分类:
"β-内酰胺类", "四环素类", "氨基糖苷类", "大环内酯类","磺胺类", "喹诺酮类", "叶酸代谢抑制剂", "苯icol类","磷霉素类", "跨膜转运蛋白类"
抗生素分类:
1. β-内酰胺类抗生素(Beta-lactams)青霉素类(Penicillins)氨苄西林(AMP)氨苄西林/舒巴坦(AMS)头孢菌素类(Cephalosporins)头孢唑林(CFZ) — 第一代头孢西丁(CFX) — 第二代头孢呋辛(CXM) — 第二代头孢噻肟(CTX) — 第三代头孢他啶(CAZ) — 第三代头孢噻肟/克拉维酸(CTX/C) — 第三代 + 酶抑制剂头孢他啶/克拉维酸(CAZ/C) — 第三代 + 酶抑制剂头孢他啶/阿维巴坦(CZA) — 第三代 + 新型酶抑制剂头孢吡肟(CPM) — 第四代碳青霉烯类(Carbapenems)亚胺培南(IPM)厄他培南(ETP)2. 氟喹诺酮类(Fluoroquinolones)环丙沙星(CIP)萘啶酸(NAL)3. 氨基糖苷类(Aminoglycosides)庆大霉素(GEN)阿米卡星(AMK)4. 大环内酯类(Macrolides)阿奇霉素(AZM)5. 四环素类(Tetracyclines)四环素(TET)替加环素(TIG)6. 磺胺类(Sulfonamides)复方磺胺(SXT)7. 多肽类(Polymyxins)耐药基因热图的制作
制作热图,首先要制作一个0和1的矩阵,0代表没有这个耐药基因,1代表有这个耐药基因,当然这个也需要写脚本来制作更方便一下,然后还是利用python来制作热图,代码不会写可以用deepseek
01matrix
heatmap
制作热图的时候与两个问题需要注意
耐药基因的选择,我只选择了30个,把高频的耐药基因全部去掉了,因为在宏观上大家都有的基因,似乎对整体耐药结果影响不大
右边部分是耐药基因的表型,是我用Adobe Illustrator一个一个画上去的。。。。这个画的比较痛苦
p上代码