
m6A调控因子具有三类:writer/eraser/reader,分别对应甲基转移酶/去甲基化酶/m6A位点结合蛋白,发挥对靶基因的mRNA的稳定性、降解、翻译效率的调控作用。

免疫微环境参与了胰腺癌的发病和进展,而m6A调控因子与PAAD免疫微环境的关联尚不得知。本文通过16种m6A调控因子的表达模式和免疫浸润构建了一个风险评分模型。
(1)证明肿瘤中m6A调控因子广泛改变。作者首先从TCGA和GTEx中下载了31种肿瘤数据、Oncomine数据库中21种肿瘤数据、CCLE数据库的23中细胞系数据,研究m6A调控因子的表达量改变。通过泛癌分析表明m6A 调控因子在癌组织和正常组织之间存在差异。
(2)针对胰腺癌RNA-seq进行分析。通过对TCGA-PAAD、GSE28735、GSE57495、GSE62452、MTAB-6134、ICGC-AU 和 ICGC-CA 数据集分析,发现胰腺癌中大多数m6A调控因子表达失调(METTL3↑,METTL16↓,ALKBH5↓,IGF2BP2↑,IGF2BP3↑,YTHDF1↑),且多数与生存相关。
(3)根据16个m6A调控因子的表达水平,对病人进行一致性聚类,确定了两组亚型的病人(组1和组2),组2病人生存好。所以认为,根据这16个m6A调控因子的表达量可以建立具有临床预测价值的模型。

(4)胰腺癌患者中只有极少部分会从免疫治疗中获益,m6A调控因子模型能不能预测患者对免疫治疗反应?在免疫细胞浸润层面,在用ssGSEA和反卷积评估免疫浸润后,发现生存更好的组2病人具有更高的免疫浸润。且几乎所有m6A调控因子和免疫细胞浸润水平显著相关。

(5)用ESTIMATE评价肿瘤纯度,发现生存更好的组2病人具有更高的免疫得分。免疫检查点相关基因和免疫活性相关基因都在组2中高表达。大部分m6A调控因子表达水平和免疫相关基因表达水平显著相关。由此认为m16A和免疫治疗效果有关。用TIDE评价肿瘤逃避免疫。较高的TIDE评分意味着较高的免疫监视逃逸可能性,免疫治疗成功率更低。组2病人TIDE分数较低,进一步证明m6A调控因子和免疫疗效有关。
(7)构建风险评分模型。运用cox线性回归+lasso计算样本生存、分组和m6A调控因子表达量之间关系,筛选出6个m6A调控因子METTL16、WTAP、IGF2BP2、IGF2BP3、YTHDC2 和YTHDF2。利用lasso计算得到的系数,用表达量计算风险评分,构建了评价模型。
(8)对模型效果进行校验。分析了风险评分和免疫相关指标的关联,发现免疫细胞在低风险者中高度富集,风险评分与大多数免疫相关基因表达和免疫细胞浸润水平呈负相关。由此,文章构建了一个可以预测患者预后和免疫疗效的模型。

一个m6A调控因子靶基因的数据库。http://m6a2target.canceromics.org/
预测靶基因:从wild type和mutant m6A调控因子的RNA-seq中进行差异分析(DESeq2),差异表达的基因认为是潜在的靶基因。


From a machine learning perspective, the challenge arises from the fact that rare-cell subpopulations constitute an imbalanced classification problem. We here introduce a Machine Learning (ML)-based oversampling method that uses gene expression counts of already identified rare cells as an input to generate synthetic cells to then identify similar (rare) cells in other publicly available experiments. We utilize single-cell synthetic oversampling (sc-SynO), which is based on the Localized Random Affine Shadowsampling (LoRAS) algorithm. The algorithm corrects for the overall imbalance ratio of the minority and majority class.
对单细胞数据分析稀有细胞亚群会面临类不平衡问题,即某些类别的样本数量极多,而某些类别样本数量极少,机器学习会因为基于单次训练错误率最低的目标,无法学习到这些少数类的特征。通常解决方法有调整样本比例、对少数类过采样和对多数类欠采样。

本文作者利用过采样方法来平衡少数类对多数类的特征。用先前研究注释出的稀有细胞的表达矩阵作为参考,运用算法生成其合成细胞,然后在新数据集中和稀有细胞进行降维和聚类,从而达到新数据注释稀有细胞的目的。
LoRAS算法:对参考细胞各自计算其k近邻(利用正态分布形成伪数据点),最后这些伪数据点合成为一个伪类。

GO语言实现的SAM、BAM文件的SQL查询语句接口 https://github.com/maragkakislab/samql/
查询语句编码抽象语法树,递归执行。
相比samtools优点:
1. 语法友好

2. 错误反馈信息提供具体行数

3. 执行效率提升


多形性胶质母细胞瘤 (GBM) 是高级别胶质瘤的一种,具有高度的侵袭性和转移性,目前以手术切除+放化疗为主治疗,但是由于GBM干细胞(GSCs)对放疗耐受,术后极易复发,中位生存期仅为14.6月。
本文作者整合了多组学数据,识别甲基化增强子区域,发现GBM 样本中增强子普遍出现低甲基化,异常甲基化增强子区域可能参与了GBM的发生和侵袭。
(1)公共数据搜集增强子区域的甲基化探针,一般典型的增强子1000bp,所以取每个CpG岛上下游500bp,如果有重叠就合并。
(2)排除异常甲基化启动子影响。将基因转录起始区上游2kb作为启动子区域,根据启动子区甲基化探针,删除启动子区域的增强子探针和定位到一个以上基因的探针。
(3)获得到的多个增强子区域,计算探针平均值,作为增强子的甲基化水平。
(4)肿瘤 vs. 正常样本,差异分析(limma)。鉴定到差异异常甲基化增强子。
(5)结合多组学数据,构建甲基化增强子介导的靶基因调控网络 (EMTRN)(甲基化增强子水平、lncRNA,mRNA),根据甲基化增强子水平,构建高甲基化和低甲基化网络(作为一个模块),从而鉴定了甲基化增强子的调控的靶基因。(GO, KEGG)
(6)基于D-lnc(药物对lncRNA表达修饰的平台,http://www.jianglab.cn/D-lnc/),利用低甲基化网络中靶lncRNA构建lncRNA-药物关系网络,预测出一些可能有效的小分子药物。



图形化RNA-seq分析工具,支持动态生成R脚本。https://github.com/Searchlight2/Searchlight2
支持到差异分析、注释。主要是可视化作图,支持自定义修改作图脚本。

深度学习可以基于基因表达谱进行表型预测,但是得到的结果较难解释。本文通过将基因本体(GO)集成到神经网络的层次结构中,构建了一个自我解释的深度学习模型,称为 Deep GONet。
输入:患者的基因表达谱,输出:对该患者表型的预测
GO的结构是一个有向无环图 (DAG),19个level,GO term按照分层自下而上的方向连接。层次越低GO term所代表的功能就更具体。

构建这样一个神经网络。隐藏层内每个level的GO term作为一层神经元,每个GO term作为一个神经元。


a神经元的激活表示为接受上一层(l-1)所有神经元x权重传递的信号,ReLU作为激活函数f(即max(0, x))
输出层接收隐藏层的最低级GO term,根据信号得分计算属于某个类的概率。