首先,不是所有的数据都一定能再发,比如别人就用了这个数据集(都是一个数据集,重复的可能性很大)分析了一个结果,你还拿这个数据集分析了类似甚至一样的结果,那就没意义了,算是“盗版/抄袭”了。
1)别人用A数据集分析的差异基因,你可以再结合,限制个范围,筛选出另外专题的差异基因(要知道一个数据集里面的基因非常多,但具体分析哪些基因,需要你课题好好设计)
2)按分析目的(分组可以非常自由,全看你课题设计是否灵活多变):
1.疾病vs正常,样本分组,得到差异基因
2.依据某基因高低表达,进行样本分组
3.风险risk计算,按中值进行高低风险组分组,两组进行各种比较,如KM分析
4.根据免疫评分分组,
而病人的sample,信息比较多,这些信息如果你的课题用得到(根据信息来分组,非常自由!),完全可以利用起来进行自由分组。
比如:
A病人,是51,复发乳腺癌,
B病人,37,原发乳腺癌
C病人,52,原发乳腺癌
你可以按年龄进行分组,那么>50和<50,就是A+C的组 vs B组
按原发 vs 复发,那么A vs B+C组
(所以很多初学者也问这样的问题:老师,GSE数据集很多样本我用不上,不在我的分组里面,怎么办?——那就不用,选择你需要的分组进行分析就可以)
样本是可以根据你分析的目的进行分组的,这个一定要自由,这个也再次回答了有同学问,数据别人分析了,自己是否还能分析?
相信你的课题设计的思路更加灵活自由了~加油!!!