文献学习日记

文献： Stoeger T , Gerlach M , Morimoto R I , et al. Large-scale investigation of the reasons why potentially important genes are ignored[J]. PLoS Biology, 2018, 16(9).

result：

一. 满足预测出版物的基因内部特征

1.目的：检验测量基因的内在化学，物理，生物学特征以及基因产物是否单独满足每个基因的出版物数量。

方法：从基因的已知序列或者先前全基因组实验计算并聚集了每个基因的430个特征。

但是发现大约有33%携带官方基因明称的蛋白质编码基因缺乏完整的特征目录。主要原因有以下几点：

①.最近的成簇的规律间隔的短回文重复序列（CRISPR）功能缺失筛选中没有报道的插入（约13％的基因，取决于测定）。

②.被人类蛋白质图谱研究的所有组织和细胞系中缺乏可检测到的RNA（6％的基因）。

③.RNA分子的Genbank参考数据库的中缺乏经过验证的RNA分子（5％的基因）。

④.Uni-Prot数据库的蛋白质分子中的缺乏报道的蛋白质分子（3％的基因）。

这个初步结果说明了实验方法的局限性，以及人类基因及其基因产物存在的惊人程度的不确定性。

由于实验方法的局限性，因此导致上面几个原因的产生。

资料来源：

①.从Blomen和他的同事，Hart和他的同事，以及Wang和他的同事那里获得了人类细胞系功能缺失的信息

②.基因组RNA和验证RNA序列的基因和编码序列均来自Genbank (Genome version GRCh38.p10) (ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.36_GRCh38.p10)。

对应的Github中的文件：

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\geisen_main_v1_2_1\run\run_genbank_features.ipynb

③.从Uniprot 获得SwissProt和TrEMBL 蛋白质序列和Entrez GeneIDs映射表(ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz,ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_trembl.fasta.gz,ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/idmapping_selected.tab.gz).

对应的Github中的文件：

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\geisen_main_v1_2_1\templates\virtualexchange

④.从 NHGRI-EBI 目录v1.0中获得全基因组关联研究

对应的Github中的文件：

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\geisen_main_v1_2_1\run\run_ebi_gxa

⑤.从www.ebi.ac.uk/ GXA下载EBI基因表达图谱(GXA)。

对应的是GitHub中的文件为:

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data\gtx_atlas.py

⑥.从 NCBI NIH (https://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2pubmed.gz)获得基因与出版物的联系。

对应的是GitHub中的文件为:

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\notebooks\examples\example_publications_vs_go_vs_rif.ipynb

2019.3.20

2.目的：使用具有完整特征的12,948个基因来评估这些特征（上文所说的430个特征）是否能够定量地反应单个基因的出版物数量。（机器学习训练模型之后，给定一个基因，然后让模型根据该基因的特征来预测其出版物的数量。）

方法：梯度增强回归与样本外蒙特卡罗交叉验证，该方法可以在很大程度上预测任何给定基因的出版物数量。

结果：发现430个特征中有15个特征对模型的准确性贡献最大（S3A图），这些特征分为六类，分别为：

⑴列举了跨多个组织的基因编码的RNA和蛋白质分子的丰度（肾上腺，阑尾，脑和肝脏的RNA丰度;部分组织可以检测到RNA的表达，以及HeLa细胞的蛋白质丰度）

⑵蛋白质的阳性电荷

⑶蛋白质的疏水性

⑷基因对突变的敏感性（人群中错义突变的发生率，人群中功能缺失突变的发生率，对人群中纯合或隐性功能缺失突变的耐受性，KBM7细胞中的CRISPR评分）

⑸转录物和基因的相应的长度

⑹促进新生蛋白质转运到内质网中的信号序列

这15个特征分别为：

①信号肽

②蛋白质GRAVY

③纯合子和杂合子对功能缺失突变的种群耐受

④KBM7细胞功能缺失突变（CRISPR Score）

⑤肝脏中的RNA表达

⑥大脑中的RNA表达

⑦肾上腺中的RNA表达

⑧阑尾中RNA的表达

⑨RNA>=1的组织部分

⑩种群错义突变

⑪基因长度

⑫种群缺失突变

⑬RNA长度

⑭HeLa细胞的蛋白质浓度

⑮蛋白质碱度

图1b

图中黄色代表基因簇，每一个圈为一个基因簇。上述的15个特征的序号对应着热图中每个特征的顺序。（我认为特征①-⑮在热图中的顺序从左往右，每一列对应一个特征）

图1b的右上角的放大的热图

这15个特征足以说明模型的准确性，因为使用具有这15个特征的模型预测具有完整特征目录的12948个基因的出版物数量的准确率（Spearman:0.61,S3B）与预测已经报道具有这15个特征的所有15056个基因的出版物的数量的准确率相当。

图S3的a：拥有完整特征目录的12948个基因的发表数量的预测；b：已报告15个特征的所有15056个基因的发表数量的预测

因此，使用这15个特征为15056个基因定义了15维空间，该空间反映了出版物和单个特征之间的相关性以及不同特征的组合。该空间内的基因簇由于不同的Gene Ontology注释而被富集并因此知道其生物学作用（图1B，S4图）。这一初步发现表明，基因出版物的数量在很大程度上仅归因于它们的一小部分物理，化学和生物学特征。

图S4.物理、化学和生物特征映射到单个基因。

2019.3.21

图S4的理解：图中的每一个点代表一个基因，而每个小图代表一个特征并由具有该特征的基因富集而成。如第一个小图为具有信号肽特征的基因富集而成。颜色越深，基因的富集分数越高。根据该热图，基因富集到哪一个特征的热图，就表示该基因具有该特征的功能。

数据来源：

①专利数据来自Rosenfeld和Mason。映射到Entrez Gene ID的Gene Ontologies于2017年初从NCBI获得（https://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2go.gz）

对应于Github中的文件为：

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data\nanotation

②从NCBI NIH中获得了Entrez Gene IDs 与 Ensembl Gene IDs之间的连锁表(https://ftp.ncbi.nlm.nih.gov/gene/data/gene2bl.gz)。

对应于Github中的文件为：

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data\gene_mapper.py

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\geisen_main_v1_2_1\src\geisen\mapper.py

③基因和染色体的名称于2017年初从NCBI NIH获得（https://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz）

该部分使用到的数据资源对应于GitHub中的文件：

plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data。

2019.3.22

二.过去研究的优先权强烈反映了目前的积极性。

1.上述15个特征都被怀疑会影响用传统方法研究特定基因的能力。在这一事实和对科学的大量社会学观察的推动下“富人”可以变得“更富”，该研究接下来详细介绍了每个基因的出版物总数与过去的研究之间的一致性。根据先前关于每个基因出版物数量差异的报告的相似性，发现了：

①发现自2000年以来，目前出版物数量的不平衡一直保持不变（S5A和S5B图）

a:基因在medline中累积发表的文章份额; b:随着时间的推移，出版物中基因的基尼系数

基尼系数：用来衡量不平等程度的指标。基尼系数最大为“1”，最小等于“0”。基尼系数越接近0表明收入分配越是趋向平等。国际惯例把0.2以下视为收入绝对平均，0.2-0.3视为收入比较平均；0.3-0.4视为收入相对合理；0.4-0.5视为收入差距较大，当基尼系数达到0.5以上时，则表示收入悬殊。一般以0.4作为分界点，超过0.5表示差距悬殊。

b图中基尼系数一直都0.5，表明了基因研究分配的不平等。

②每个基因的出版物数量在当前十年和之前时间段的研究之间高度相关（图2A，Spearman：0.84）,并确定了目前正在经历其出版物数量大幅增加的六个基因，这可以追溯到最近其对医学重要性的认可（表4）。

Fig.2A过去和最近研究的每个基因出版物的数量

表4.对2011年至2015年期间基因的关注度增加的文献调查。

与备择假设相反，人类基因的研究将更加具有动态性。对早期对两个基因家族和在大脑中特异表达的基因的研究之外进行概括，发现早期报道的人类基因——如基因或其编码基因产物的早期最初发表日期所指示——目前也进行了更多的研究（图S5C）（也就是说以前研究过的基因，目前任然在在进行研究）。如1991年报告的所有基因（相当于所有基因的16％）占2015年文献的49％（S5D图）

图S5c：基因首次发表年份与2006 - 2015年发表数量的相关性。d：2015年MEDLINE发表的按初始发表年份排序的基因研究累计份额

图S5c中，初始报告年份为2000年之前的基因出版物，在2006年-2015年期间其出版物的数量在增加，说明了先前研究过的基因，目前仍然在被研究。

这一结果表明了初始报告进一步增加了出版物数量的可预测性，且因为包含了出版物的年份提高了模型的准确性。（Spearman系数从图1a中的0.64增加到了图2b中的0.75，说明了增加了出版物年份之后，增加了模型预测出版物数量的准确性）

图2b：通过包括特定人类基因的第一次出版年份来预测图1A模型的研究出版物的数量

图1a：利用430个基因的物理、化学和生物特征信息对单个基因建模方法和预测研究出版物数量的说明

2.目的：确定与初始报告相关的因素

方法：创建了具有上述430个特征的独立模型，并训练他们，用以预测初始出版物的年份

结果：预测初始出版物的年份的准确性比预测出版物数量稍差（图2C）（因为是使用这430个特征的模型预测出版物的数量的Spearman为0.64，见上文图1a，而使用该模型来预测初始出版物的年份的Spearman为0.48）

图2C：使用图1A的特征预测发现年份

但是基础模型再次选择了高度相似的特征——最显著的是，信号肽，转录物和蛋白质分子的丰度，以及对突变的敏感性的存在（图S5E）。这表明，对于基因的初步发现起着重要作用的基因特征，仍然部分与关于这些基因的现有出版物数量相关。

图S5E：预测出版物数量和预测发现年份的重要特征中位数的比较

同样，该研究还观察到虽然出版物的数量在基因家族的第一次分录（例如，AKT1）和第二次分录（例如，AKT2）之间相关（S5F图，Spearman：0.69），但是第一次分录具有更多的出版物（Mann-Whitney U检验：p值<10-24）。这表明了即使在进化和化学上高度相关的基因，早期的初始报告也与更多的出版物一致。（这也许说明了基因被发现得越早，其具有的出版物数量就越高，也就是被研究更充分）。

2019.3.23

数据来源：

①文章类型和出版物标题于2017年初从MEDLINE https://www.nlm.nih.gov/databases/download/pubmed_medline.html）

对应得Github中的文件夹为：

①plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_literature_data

access_literature_data文件夹中的详细文件

②plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\notebooks\examples\example_load_scientists_and_medline.ipynb

③plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\notebooks\examples\example_medline_wos_query.ipynb

④plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\quest\170904f_features_vs_knowledge\170904f_predict_year_of_initial_publication.ipynb(预测初始出版物的年份)

⑤plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\narrative\k_170909_prediction_of_year_of_discovery_2CE.ipynb（预测发现出版物的年份）

三.来自模式生物的知识推动了人类基因的研究

1.由于预测初始报告年份的预测准确度降低可能暗示着存在另外一个或多个因素，这些因素未包括在我们的430基因内在特征中。因此该研究为了探索这些因素，使用PubMed进行了文献计量分析，以比较各个出版物及其引用的出版物中包含的基因。

通过关注报道新的人类基因发现的出版物，该研究发现引用非人类基因研究的出版物比例过高（图2D和S6A）

图2D：引用含有非人类基因的出版物的比例高于引用含有人类基因的出版物的比例

图S6A

由于引用非人类基因出版物的比例过高，因此该研究对这些基因的生物种类进行了分析，并将其分为两类：

①第一类基因优先与人类基因共同发生，由Mus musculus（小家鼠），Rattus norvegicus（褐家鼠），Bos taurus（家牛）和Gallus gallus（野鸡）组成（引用率分别为37％，9.1％，2.6％，2.5％）。

②第二类有倾向性的发生在没有人类基因的出版物中，由黑腹果蝇，酿酒酵母，大肠杆菌，非洲爪蟾，秀丽隐杆线虫和粟酒裂殖酵母组成（引用比例分别为：22%，10%，4.0%，2.5%，1.6%，1.5%）（图S6B）

图S6B：人类基因的初始出版物引用的部分非人类生物

假设引文是科学影响的一个代表，这一发现表明人类基因的初始报告特别受到模式生物研究的影响并且多种模式生物在人类基因的发现中起到了补充作用。

2.通过上文的发现，通过包含关于模式生物同源基因的初始报告的年份之后，该研究显着提高了人类基因初始报告年份的预测准确性（图2E，Spearman系数从0.48至0.71）。此外，同源基因初始报告年份比人类基因初始报告年份提高了预测出版物数量的准确率(图S7A Spearman: 0.81)。

图2E：使用图1A的特征和关于非人模型生物的同源基因的初始出版年份来预测关于单个基因的初始出版物的年份

使用图1A模型预测研究出版物的数量，扩展到包括非人类同源基因首次发表年份

图2b:通过包含特定人类基因的第一次出版年份后使用图1A的模型预测研究出版物的数量

图S7a（使用图1A模型预测研究出版物的数量，扩展到包括非人类同源基因首次发表年份Spearman：0.81）和图2b（通过包含特定人类基因的第一次出版年份后使用图1A的模型预测研究出版物的数量，Spearman：0.75）相比，前者的预测准确率增加了。

同样，未被研究的人类基因的同源基因同样在模式生物中未被研究，并且包含关于同源基因的出版物的数量对个体人类基因的出版物数量产生了几乎完美的预测（图2F，Spearman：0.87），而没有同源基因的人类特定基因保持显著较少的研究（S7B Fig，Mann- Whitney U检验：p值<10-32）

图2F:使用图1A的特征和同源基因的出版物数量预测研究出版物的数量

图S7B：在非人类模式生物(人类专有)中，以同源基因的存在为条件的单个基因的发表数量

也就是说：

①使用包含了同源基因出版物数量的图1A的模型来预测人类基因出版物的数量准确率非常高，几乎接近完美。

②在人类基因中没有被研究的同源基因在模式生物中也没有被研究。

③没有同源基因的人类基因较少被研究。

这些结果都表明了模式生物的研究影响获得关于人类生物学的知识—— 这个假设已经被提出来，但是在之前并没有被证明。

2019.3.24

数据来源：

①同源基因第68版获自NCBI NIH（https：//ftp.ncbi.nlm.nih.gov/pub/HomoloGene）

对应的Github中的文件为：

①plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\notebooks\examples\example_obtain_featuers_from_homologene.ipynb

②plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\geisen_main_v1_2_1\run\run_tier2_misc.ipynb

③plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data\relations

④plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\src\ana170508f_human_citations（根据出版物的年份计算引文）

⑤plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\src\nar171107f_citation_network

⑥E:\Literature\holiday work\plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\src\nar170902_discovery_year（返回medile中文章所涵盖的最早的出版年份）

四.基因的特征影响重要生物学的研究

1.目的：鉴于观察到科学事业的历史连续性，该研究想知道生物医学研究是否已经确定了所有特别重要的人类基因，因此分配相应出版物的产生。

方法：研究人员将他们的注意力平均分配到同一出版物中包含的所有基因（S8图）

图S8 .出版物关注度密切跟踪出版物数量

结果：虽然这是一个简化的假设，但是通过该假设能够可靠地观察到，在出版物中受到最多关注的基因大约是功能缺失突变的敏感性的基因或者全基因组研究协会(GWAS)中鉴定的基因的3到5倍(图3A)。而且这种富集度最大的基因已经被几个独立研究中重复鉴定，其中关于人类表型性状研究的频率最高。然而，在将那些受到最少关注的基因与那些受到最高关注的基因进行比较时，观察到平均关注度极度增加了13倍富集（图3A）。

图3a：遗传功能缺失（LoF）不耐受基因存在，具有GWAS特性基因的存在以及出版物中基因的关注度的相对富集。

黑色的线（出版物中基因受到的关注度）的最大值分别是红色的线（Frequent GWAS）和蓝色线（功能缺失突变不耐受）的最大值的3-5倍。受到关注度最少的基因（橙色的线）和受到关注度最高的基因（黑色线）相比较时，黑色线（出版物中的基因受到的关注度）的最大值是橙色线（Any GWAS）最大值的13倍。

这些结果表明了当生物医学研究确实关注重要基因时，不成比例的大量研究工作集中在已经充分研究的基因上。

对应于Github中的文件为：

①plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data\phenotype_collections

②plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_biology_data\gwas_studies

2.在检测美国国立卫生研究院（NIH）作为另一个重要的代理进行资金分配时，我们观察到类似的模式（类似于关注度的分配模式）。鉴于每个基因的出版物数量与NIH的资金分配数量之间的相关性（S9A和S9B图，Spearman：0.95）

图S9A和B。A：基因的资助金数目与基因出版物数量的函数关系。B：美国国立卫生研究院资助的研究出版物的关注度与国家卫生研究院分配给个别基因的预算数额之间的相关性

出版物数量越多，得到的资助越多。得到的资助越多，受到的关注度越高。

而且，上述所建的模型准确地预测了数十亿研究资金的分配（图3B，Spearman 0.70）。并且这种方法特别适用于多种补助支持的基因（S9C图）

图3B：预测与实际NIH预算支出的单个基因（点）

图S９C：拨款总额达到规定水平的基因补助金数目。x轴显示非重叠箱的上限

并且通过另外考虑详细描述基因和疾病之间的已知注释的3,176个特征（FigS9D ，Spearman：0.73），预测准确性仅略微提高，但是如果仅考虑后者（S9E图，Spearman 0.43）则极大但未完全受损。

igS9D ：在图3B所考虑的特征中加入基因与疾病之间的联系，预测NIH在单个基因(dots)上的预算支出。黑线表示lowess拟合和虚线表示预测(S1数据)的两种不同的状态

S9E图：仅考虑基因与疾病之间的关联时，预测NIH在单个基因(dots)上的预算支出，黑线表示lowess拟合和虚线表示预测的两种不同的状态

这些结果表明了以前发现的基因内在特征和同源基因首次报告的年份不仅与研究资助有关，而且在更大程度上与目前存在的基因在疾病中的作用的知识有关。同样，如果只考虑报告疾病中具有作用的基因，发现预测了基因首次发表年份的同一个模型（图2E）还预测了批准和临床前药物的存在的可能性（图3C，图9F）。

图3C：根据图2B中所示的模型，用至少一种疾病相关基因的实验药物分数为条件预测大约的发现

图9F：如图3C所示，但适用于已批准的药

这些研究结果表明，基因的少数特征和模式生物的可用性对人类疾病的基础和应用的研究产生了强烈影响，并且由此导致了研究可能显着偏离个别基因的实际的生物学重要性。

2019.3.25

数据来源：

①药物及其靶标获自DrugBank（版本5.0.7）

②基因和疾病之间的相关性从Genecard的GeneALaCart service 服务(https://genealacart.genecards.org）通过所有官方人类（HUGO）基因符号的连续批次查询获得的。

对应Github中的文件：

①\plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_economic_data

②plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\access_science_data_v1_1_lite\src\access_reagent_data

③plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\geisen_main_v1_2_1\run\run_genbank_features.ipynb

④plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\src\nar170605f_funding（获取NIH论文的资助信息）

⑤plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\narrative\k_170721_per_gene_funding_S9B.ipynb（每个基因的资助）

⑥plos_biology_2018_ignored_genes-master\plos_biology_2018_ignored_genes-master\resci_v1_1_lite\PlosBiology2018\narrative\k_170902_grant_category_and_fame_bins_S10B.ipynb（资助种类）

五.替代发现策略的可行性

1.发现的强相关性，以及早期关于试剂可用性的研究表明，研究人员可能面临非常实际的限制，阻碍他们探索研究很少的基因，并且可能需要替代发现策略。为了支持这种可能性，并超越上述对大量积累知识的发现，该研究观察到在重点单基因研究中描述的基因部分仅以恒定速率增加（图4A）。

图4A：如果科研单位继续遵循上述报告的趋势，则对所有基因研究之前的年份进行估计。每年至少有n个重点(单基因)出版物的基因数量。虚线显示了近年来线性回归界限的延申

n:代表基因的数目

2.仅仅研究少数基因可能不是很有用，可能会暴露出初级科学家职业风险的增加（S10A图）

图S10 A：初级科学家的职业前景与以前对基因的关注度有关

A:初级科学家的职业前景与以前对基因的关注度有关:根据这些出版物中基因的关注度的中值，出版物作者转变为项目负责人(PI)地位的可能性。如果，在之前的几年里，这种注意力落在所有最不受关注的基因的五分位数中，作者就有更低的经验观察机会成为PI。当将作者出版物的关注度变成所有基因的中心五分位数（对应于最受关注的40％-60％的基因）与这些作者的出版物的关注度中位值变成最受关注的基因的关注度中位值相比时，这种降低大大减少了.

3.与此同时，美国国立卫生研究院(NIH)专门用于探索性研究的拨款类别也不需要原始数据，用于创新研究或科学家培训的资助类别都与生物医学文献中观察到的不平衡密切相关，其中5%的人类蛋白编码基因占了一半的出版物（图S10B和S10C）

图S10B：在指定年份内发表的MEDLINE的份额涵盖了在指定年份之前研究最多的5%的基因。

图S10C：美国国立卫生研究院(NIH) 2015年探索性拨款支持的大多数出版物中出现的1000个基因的说明

鉴于最近的一项文献计量学研究表明，如果结合已有的研究背景，新颖性可能有利于科学出版物的影响，因此该研究建议建立一种资源，为探索研究较少的基因提供背景。

2019.3.26

4.通过对研究较少的基因检查现有出版物的特性，我们发现这些基因往往发生在包括大多数基因在内的大规模研究中（S11A和S11B图），这暗示了大规模研究的能力支持研究较少基因的研究。该研究观察到这些研究是其他出版物的常用参考（图4B，S11C图），并且涉及它们的单基因研究比那些涉及单基因研究的单基因研究中包含的那些基因倾向于关注研究较少的基因。（S11D图）

我的理解：也就是说大规模的研究能够支持研究那些很少被研究的基因，并且这些研究很少被研究的基因的出版物是其他出版物的常用参考，而且涉及到大规模研究的单基因研究比那些涉及单基因研究的单基因研究中所包含的那些基因更加倾向于关注不被或是很少被研究得基因。

a:具有一定数量出版物的基因的比例与各自出版物中同时出现的基因的中位数之间的核密度估计;b：（B）作为与出版物相关的基因数量的函数的出版物的中度注意力百分比

在图S11b中，出版物中的基因数量越多，在出版物中所受到的注意力越少。

图4b:出版后8年内被高度引用的研究（引用次数排名前5％）的百分比。误差条显示95％置信区间。

图4b中可以看到出版物中包含的基因数量越多，被引用的百分比越高。

图S11c:高度引用出版物的百分比（前5％，用虚线显示）与BioGRID中与出版物相关的基因数量的函数;d：给予单个基因出版物的关注度中位数，作为与其引用的出版物相关的基因数量的函数。

从图S11c中可以看到，BioGRID的出版物中的基因数量越高，被引用的百分比就越高。

5.目的：为了确定大规模生物信息收集在多大程度上已可以作为对大多数基因进行详细描述的潜在起点

方法：我们接下来用数据库扩展了我们的资源。如公共RNA干扰（RNAi）实验的集合，人类蛋白质复合物的目录，以及公共差异基因表达实验的目录——这些都可能受到偏倚实验选择的影响。

结果：发现27％的从未被完整出版物研究的基因（S12A图）在大规模实验的公开现有数据中较少被鉴定，并且它们不太可能具有与大量出版物相关的特征（图4C，图S12B）。还发现83％的可能实验已经存在的基因特异性数据，并且对于其中25％，存在至少三种定性不同类型的数据（S12C图）

图4C:（上图中每一组柱状图分别表示）具有强RNAi表型的基因的百分比,至少有一个组织具有中等的RNA丰度，存在黑腹果蝇同系物，或属于具有高度研究基因的复合体。高度研究的基因在所有这些特征中都显示出更高的百分比，但许多未研究的基因也具有这些特征

图S12a:在给定基因在出版物中关注度的分布(以部分出版物衡量)。关注度水平低于1的基因为未研究基因(蓝色)，而关注度水平高于1的基因为研究基因(橙色)。b:具有特定特征的基因百分比

在图S12b中，蓝色柱状图表示具有某相应的特征但未被研究的基因百分比，如：RNA干扰的频繁程度这个特征中，蓝色的柱状图表示具有这个特征，但是并未被研究的基因所占的百分比。而橙色表示具有这个特征且已经被研究的基因所占的百分比。

图S12c:如同B，但按B的至少一项特征进行分组，与B的顺序相同

这有力地表明，阻止其早期发现的基因和同源基因的特征将不再阻止其更详细的研究。

6.为了促进探索和假设生成，我们提供了一个策划指南，专门指导基因特异性初步数据的适当来源。

进一步分析表明，不同的大规模方法覆盖了15维空间的不同区域，高通量相互作用研究中鉴定的基因在包含大量表达基因的区域中得到强烈富集（蓝色的点表示基因，颜色的深浅表示相对命中，颜色越深表示相对命中越高），通过差异表达研究鉴定的基因富集在含有基因的区域，这些基因的转录本通过现有技术在成体组织中普遍检测到。相比之下，在功能缺失的RNAi筛选中，通过表型识别出的基因更均匀地覆盖了15维空间（从图4D中可以看到颜色比较深的蓝色均匀的覆盖在基因集中）（图4D）类似地，与遗传性状高度复制相关的基因覆盖15维空间的多个区域，一些预测大量出版物，另一些预测少量出版（图4E，图S4）

图4D：用不同的大规模实验方法鉴定命中目标时的偏倚说明；E：利用图1A中使用的模型中最重要的15个特征，通过t-SNE可视化对基因进行分组

图4E中大的圆圈突出了经常发现GWAS的特征的基因（每一个点表示一个基因）。热图显示了强有力的遗传证据(G)，实验可能(E), 与无脊椎动物模型生物同源性(M)。注意GEM特性与研究关注度之间缺乏很强的相关性。E,实验性的潜能;FPKM，每千碱基转录本片段每百万次映射读取;G，有力的遗传支持;GEM，有力的遗传支持和实验可能和与无脊椎模式生物的同源性; GWAS：全基因组相关研究。M，模式生物; RNAi：RNA干扰;t-SNE：t分布随机邻居嵌入。

该研究举了三个例子：

①首先我们来看看被大量研究的基因TERT（在15维空间图的右上角）的RNA。TERT是端粒酶的催化亚基，在大多数成人组织中是检测不到的。虽然我们的分析表明，这种生物学特性通常与少量的出版物有关，但TERT的缺失限制了细胞过度增殖，这一因素克服了异常激活后的研究困难。（也就是说若基因异常激活导致细胞过度增殖，则可考虑TERT基因并将其敲除，虽然它在大多数成人组织中是检测不到的，因而无法研究其生物学作用，但是该基因的另外一种生物学作用被发现，也就是其能够限制细胞的过度增殖）。

②另一个例子是研究较少的乳腺癌基因CCDC170，该基因编码一种最带电荷和酸性的人类蛋白质，而且在维持高尔基相关微管的组装中具有某种结构性作用。

③最后一个例子是C1orf106，它是与溃疡性结肠炎相关的第二大基因，在差异基因表达实验中，它是最常被识别关联的前20%的基因之一，但C1orf106最近才被跟踪，当时基因特异性下拉实验揭示了其在调节上期黏附连接的稳定性中的作用。

这些例子说明了：功能研究仍然是发现新生物学的有力策略，这种生物学不复制过去的研究偏倚。

3019.3.27

7.目的：为了对进一步探索的战略选择提供更广阔的视角

方法：该研究还介绍了遗传支持和实验可接近性的存在以及无脊椎动物模式生物中同源基因的存在的综合措施。

虽然一些初始鉴定的簇（图1B）似乎在实验室上可以很好地用于人类或模式生物体，但其他簇似乎对这些方法具有弹性（图4E）。（也就是说图1B中根据图1A中的模型所使用的最重要的15个特征鉴定出来的这些基因簇，被分到同一个簇的基因，说明他们具有某些相同的特征。但是某些簇中包含的基因或许都不具有相同的特征）

图1B:使用图1A中使用的模型中最重要的15个特征，通过t-SNE可视化对单个基因的研究出版物分组

例如：对转录共激活因子活性富集的簇（图4E中左上角单独被圈出来的那个簇）。它包含几个进化上保守的基因，这些基因对功能缺失突变非常敏感并且在实验上是可接近。该簇包含多个高度研究的细胞生理学调节因子，例如基因MTOR，CLTC，TAF1和CREBBP。
但该簇还包含了DICER1，它催化microRNA的成熟，并且是最近地研究热点，在长期缺乏对非蛋白质介导的基因调控的关注之后，DICER1的发现被认为是一个巨大的惊喜。而且，这一簇还包含了两个仍未被鉴定的大基因家族成员IPO9和ANKRD52。这种关注度地缺乏表明了，即使那些看起来很有前途特征的基因，大部分也可能被忽视。为了便于鉴定这些基因，该研究还提供了这些基因的列表（S8表）和在自定义基因集附近识别这些的图谱（S9表）。还进一步添加了另一个图，它允许探测上述综合措施的自定义基因集（S10表）。