公共数据库+泛癌分析，全基因组DNA甲基化相关也能轻松6分+

Genome-wide DNA methylation profiling and identification of potential pan-cancer and tumor-specific biomarkers

全基因组DNA甲基化分析和潜在的泛癌症和肿瘤特异性生物标志物的鉴定

发表期刊：Mol Oncol

发表日期：2022 Jan 2

DOI: 10.1002/1878-0261.13176

期刊相关信息

一、背景

癌症是全世界第二大死因，乳腺癌、前列腺癌、肺癌、结肠直肠癌和胃癌是最常见的病因。异常的DNA甲基化被认为是癌症发展的一个标志，异常的 DNA 甲基化被认为是癌症发展的标志，并且已观察到整体低甲基化和位点特异性高甲基化。

鉴于DNA甲基化在癌症中起着关键作用，一些研究概述了使用甲基化的DNA位点作为癌症检测标记，主要集中在基因启动子标记或单个CpG标记上。尽管已经确定了几个这样的甲基化生物标志物，但其中只有少数被用于临床。这些检测方法仍然受到不同癌症阶段性能不一致的困扰，而且在检测残余疾病方面存在不足。

二、材料与方法

1.数据来源

1）DNA甲基化数据集是从TCGA下载的，选择了肿瘤与正常样本比例为10%或至少有10个肿瘤与正常样本对的数据集，总共有14种不同的肿瘤类型的数据集被用于分析：包括6502个样本：5783个病例和719个对照

2）为了进行独立的外部验证，从GEO数据库下载了10个额外的Illumina450K甲基化数据集，汇总成一个更大的数据集，包括8种不同类型的332个正常样本和1263个肿瘤样本，以代表泛癌症验证集。

2.实验流程

1）甲基化数据的预处理

2）差异性甲基化分析：差异甲基化分析主要使用champ软件包，排除了25%以上探针数据缺失的样本，过滤了其余有缺失值的探针，β值小于0的设为0，大于1的设为1；差异甲基化区域（DMRs）和差异甲基化区块（DMBs）是基因组的扩展区域，在两组之间表现出可量化的甲基化差异，使用ChAMP中Bumphunter算法的实施扩展来识别，最小尺寸分别为50和500bp

3）泛癌症生物标志物鉴定：在对单个癌症数据集进行全基因组预筛选以确定肿瘤和正常样本之间甲基化差异最大的位点后，选择了所有14种类型共同的、对数|ΔβFC|≥2的DMPs用于后续分类器模型的建立；拟合二元逻辑回归模型来预测组织类型

4）特定类型的生物标志物鉴定：采用了1对1的方法来识别14种肿瘤类型中的1种和其他13种合并的差异甲基化探针，使用的是包含14种肿瘤类型的5783个病例的集合数据集；使用多类矩阵交叉的方法（类似于维恩图）来识别每个肿瘤类型特有的DMPs，这些DMPs将作为模型预测因子，然后进行筛选

三、实验结果

01 - 不同肿瘤类型的差异DNA甲基化的模式

大多数肿瘤类型在正常和癌症样本中都表现出总体上的双峰β值密度分布，低端密度略高。食道癌显示两组的β值都在中间范围内巩固，而胰腺癌几乎只在β值的低端范围内巩固（图1A）。为了在不同的肿瘤之间进行可扩展的比较，DMP计数报告为基于每个类别中分析的 CpGs 探针总数的标准化比例。差异甲基化在不同的肿瘤类型中明显不同；平均而言，在不同的肿瘤类型中观察到55%的差异甲基化，其中30%的低甲基化和25%的高甲基化（图1B）。食道癌、胰腺癌和甲状腺癌的差异甲基化比例最低，约为22%，而肾癌、肺癌和前列腺癌的比例最高，为70%或更高。肝癌、肺鳞癌和肾癌的低甲基化程度最高，约为40-48%，而甲状腺癌、食道癌和胰腺癌的低甲基化程度最小，约为10-15%。相反，乳腺癌、肺鳞癌和肾癌的高甲基化比例最高，为35-39%，而膀胱癌、食道癌和胰腺癌的高甲基化比例最低，为9-15%。有趣的是，在乳腺癌中，差异甲基化在高甲基化和低甲基化之间几乎平均分配（图1B）。在DMPs的数量和数据集的样本数量之间没有观察到明显的相关性。整个肿瘤类型的DMPs平均被映射到17000个独特的基因上，每个基因有四个DMPs是最常见的，每个基因平均有八个DMPs。平均来说，35%的DMPs位于基因体，24%位于IGR，13%位于TSS1500，10%位于TSS200，9%位于5′UTR，4%位于3′UTR和第一外显子（图1C）。关于DMP与CpG岛的关系分布，最大比例的DMP映射到开放海区，平均37%，其次是CpG岛，平均31%。北部和南部海岸分别平均包含13%和10%的DMP，而北部和南部大陆架包含的DMP平均比例最低，分别为5%和4%（图1D）。

图1 不同癌症类型的差异化甲基化分析结果概述

在不同的肿瘤类型中还发现了总共15260个DMRs，每个类型平均有1090个DMRs。DMRs是基因组的扩展片段（约10 bp - kb），在不同的生物样本中显示出DNA甲基化水平的定量改变。与DMPs类似，肾癌的DMRs最多，为2505个，而食道癌最少，为349个。DMRs的平均大小为750bp，平均包含12个CpG探针。每条染色体平均有726个DMRs，其中6号染色体最多，平均有1962个，21号染色体最少，平均有81个。DMRs在各肿瘤类型中的基因组分布总体上相似。6号染色体上的一段高DMR密度似乎存在于所有的肿瘤类型中，在3、11、17和19号染色体上可以看到类似的甲基化区域。令人注意的是，在任何一种癌症类型的9号染色体上都没有发现DMRs（图3）。在不同的肿瘤中共发现了29481个DMBs。

图3 勾勒出不同癌症类型甲基化区域的基因组分布的密度图

另一方面，DMBs是大规模的基因组区域（10 Kb-1 Mb），包含数百个基因间（开放海区）差异甲基化的CpGs。每个肿瘤平均有1785个DMBs被鉴定出来，在肾脏肾乳头瘤中观察到最多的是2543个DMBs，在肝癌中观察到最少的是1020个DMBs。由于比DMRs大，且含有更多的CpG探针，所鉴定的DMBs长度为750Kb，平均含有200个探针。每条染色体平均可以映射出1135个DMBs，其中2号染色体和18号染色体的DMBs数量分别最高和最低。从DMBs的基因组分布来看，它们似乎在各种癌症中表现出普遍的特征，这可以在1、8、9、18、19、21和22号染色体上清楚地观察到（图S3）。

图S3 密度图概述了不同癌症类型的差异甲基化区块（DMBs）的基因组分布

02 - 甲基化作为泛癌检测生物标志物

经过过滤步骤（图2），作者确定了28个泛癌DMPs，与所有癌症类型的正常人相比，这些DMPs在肿瘤样本中被高甲基化。其中12个可以被映射到12个不同的基因上，20个DMPs位于CpG岛区域，3个位于海岸区域，3个位于开放区域，2个位于架子区域。

图2 概述生物标志物识别方法的示意图

然后用二元逻辑回归来测试28个探针的组合，这些组合在对样本进行泛癌分类时效果最好。逻辑回归分类器模型是用1-4个探针的组合建立的，并在GEO数据集中进行了外部验证。总共测试了24157个预测器组合，其中20475个由4个探针组成（图S4）。仅使用单个探针的平均曲线下面积（AUC）为0.84（图S4A），使用四个探针组合的平均曲线下面积上升到0.92（图S4D），1个和4个预测器组合的平均误分类误差分别为0.11和0.09。这些模型在验证数据集中表现良好，单个预测因子的平均外部AUC为0.89，四个预测因子为0.95（图S4A,D）。最终的模型是根据最高的AUC和最低的错误分类误差以及这些测量中最小的标准偏差选择的。

图S4 所有测试的预测器组合的泛癌模型指标概览

最终的模型包括四个探针，在发现集达到交叉验证的AUC为0.95，在验证集达到AUC为0.96。误分类错误率为0.06，而敏感性和特异性为90%，总体准确性为92%。在验证数据集中也取得了相当的性能（图4）。无法测出临床癌症阶段或年龄对组织类型预测的明显影响。阶段性的最终分层模型在所有四个阶段中产生了某种程度上的统一预测结果，AUC高于0.90。正如预期的那样，I期表现出最低的指标，敏感性和特异性分别为85%和91%，而最准确的预测结果出现在IV期，敏感性和特异性分别为97%和90%（图4）。

图4 最终的泛癌模型、验证数据集和阶段分层的ROC曲线

03 - 甲基化作为特定类型的检测生物标志物

将类似的过滤步骤应用于单对单的差异性甲基化分析后，结直肠癌记录的特定类型DMP数量最多，为5181个，其次是甲状腺癌，为4666个。食道癌和肺鳞癌的类型特异性DMP数量最少，分别为13和12个DMP（图S2）s。在对相关预测因子进行特征选择后，还剩下586个探针，大约是初始特征集的3%。随后，冗余过滤聚类步骤产生了20个CpG预测因子，从10个产生的特征聚类中各选2个。由这20个预测因子中的6个组成的组合被用来建立分类器模型；这是基于初步数据显示最高的平均AUC，预测因子的数量最少，测试的组合总数最实用。使用PLSDA算法，利用14种类型的肿瘤集合数据集，共测试了38 760个组合。对14种肿瘤类型进行分类的平均交叉验证AUC为0.85。大多数测试组合在分类癌症类型方面表现良好，甲状腺、尿道、前列腺、肾脏、结肠直肠、肝脏和头颈部癌症的局部AUC平均值高于0.90。胰腺癌、肺癌、食道癌、乳腺癌和膀胱癌的平均AUC较低，但其局部AUC最大值都在0.80以上。事实上，只有食道癌的最大检测AUC低于0.90，为0.87，是研究的14种类型中最难辨别的。肝癌、前列腺癌、子宫癌和甲状腺癌的鉴别能力最高，AUC为0.99，而结直肠癌的AUC为0.98。综合的最终模型包括20个独特的CpG探针，在分类肿瘤类型方面表现非常好，与6个探针组合的单个模型相比，指标有明显的提高，特别是特异性（图5）。该模型在现有癌症类型的验证集中表现同样出色（图6）。甲状腺、子宫、前列腺、肝脏和结直肠肿瘤可以以近乎完美的灵敏度被识别。在研究的14种癌症类型中，有12种可以以高于90%的敏感度和特异度进行鉴别。只有食道癌和肺鳞状细胞癌的特异性分别为80%和87%（图5）。

图5 最终综合类型特定的偏最小二乘法-判别分析模型的接收操作特征曲线

图6 在GEO验证数据集中，最终整合的特定类型偏最小二乘法判别模型的接收操作特征曲线

四、结论

研究使用癌症基因组图谱研究了14种不同癌症类型的全基因组甲基化谱，鉴定并验证了四种候选泛癌甲基化CpG生物标志物和20种候选癌症类型特异性标志物的组合。这突出了甲基组作为生物标志物的丰富来源，可用于新的微创癌症检测测定。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 223,924评论 6赞 521
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 95,776评论 3赞 402
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 170,954评论 0赞 366
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 60,576评论 1赞 300
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 69,589评论 6赞 399
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 53,105评论 1赞 314
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 41,480评论 3赞 427
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 40,457评论 0赞 278
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,998评论 1赞 324
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 39,026评论 3赞 343
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 41,174评论 1赞 354
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,812评论 5赞 350
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 42,502评论 3赞 336
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,979评论 0赞 25
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 34,101评论 1赞 275
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 49,674评论 3赞 380
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 46,204评论 2赞 363