本人为生信技能树学徒,GEO数据库一直都是值得挖掘的地方.最近在复现JM老师要求的一篇关于研究NSCLC(非小细胞肺癌)的DEGs(差异表达基因)的文章.使用的Datasets为4个.如下图:
(文章名为:Identification of Candidate Biomarkers Correlsted With the Pathogenesis and Prognosis of Non-small Cell Lung Cancer Via Integrated Bioinformatics Aanlysis)
可以看出,在GSE62113上,samples数量比较少,30个,而且正常组为19个,癌症组为11个.
但是,本人用R在GEO下载完数据,并提取后发现,样品原本被分为三组,分别是正常组,原发性肿瘤组和异种移植组.
JM老师解释,关于xenografts是因为伦理问题,不能直接在病人身上实验,才会把病变组织植入到正常动物相应位置,从而进行实验.
如此一来,个人认为应该把xenografts归入tumor组.所以分组方式应该是normal组samples为9,tumor组samples为21才是.而GSE62113芯片本身探究目的就为探究癌症相关基因在蛋白质组学上的表现.所以就算是以此为探究目的,也应该把normal作为阴性对照组,tumor作为阳性对照组,而xenograft作为对照组来分组.
最后附上数据来源:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE62113.