网络药理学所需的基因表达谱数据集来自各大数据库。对于骨科研究而言,GEO是最常用的数据库之一。我们可以使用NCBI(https://www.ncbi.nlm.nih.gov/)检索GEO数据库。只要选择GEO DataSets字段,就可以在GEO中检索各种基因表达谱数据集。
在检索数据集时,我们需要对检索结果进行筛选。就物种而言,首选人(Homo sapiens),如果没有人的数据集,也可以选择小鼠(Mus musculus)或大鼠(Rattus norvegicus)。就数据类型而言,我们选择探针矩阵,即在Study type中选中Expression profiling by array
。对于条目的类型(Entry type),我们需要选择Series
。
筛选器 | 选项 |
---|---|
Top Organisms | Homo sapiens |
Entry type | Series |
Study type | Expression profiling by array |
除此之外,由于我们要搜索的是疾病的差异基因(也就是在生理条件和病理条件下差异表达的基因),因此我们应该选择健康与异常相互对照的数据集。很多数据集会对样本施加各种条件,比如某药物干预下基因表达的情况,或某环境条件下与某疾病相关的基因表达的情况,这些数据集是不能使用的。要想了解某一数据集的具体处理条件,我们可以点击相应的条目,在Summary或Overall design中我们就可以看到该数据集的处理情况。
如果检索结果过多,我们还可以进行进一步筛选。在搜索框中加入关键字normal
可以增加检索到不施加干预的记录的可能性(即增加检索到疾病条件与正常条件相对照的记录的可能性)。此外样品数量越大越好,对于生存分析而言,样品数量应大于100;对于我们接下去进行的差异分析,实验组和对照组的数量都要大于10(总数大于20)。在检索出的记录的右下角可以找到样本总数,点击打开任一条目,在相应页面的Samples中可以看到样本的详细信息(如每种样本各有几例),据此可以判断是否符合我们的数量要求。