“请问特征提取之后我该如何分析?”
“我想找出有统计学差异的特征,要用什么统计学方法?”
“LASSO的内涵是什么?真的这么厉害?”
“Rad-score是什么?到底要怎么算?”
“那张一条一条的横线,有分值的….,对就是 落-寞-gram! 是什么意思?怎么画??”
“鄙人课题简单粗暴,有哪些高大上的统计图可以撑场面”?
“我想做一批基于影像组学的胶质瘤鉴别应用研究,最少需要搜集多少病例?”
“这是我的病例集、数据分布情况,请问我可以怎么分析?”
“我的Statistical analysis写的不好,你帮检查检查?!”
“老铁,这课题咋设计?至少需要多少病例”
“影像组学还可以在哪些方面应用?核心是什么?怎么实现?”
“我需要具备什么才能上手radiomics?怎么做?能发几分儿啊?有什么瓶颈?未来“K”线图走向?”
“有人说影像组学就是统计学的一种高级应用?是这样吗?”
“……???”
这些问题是否经常困扰你影像组学多年的科研旅程?
几年前鄙人刚开始接触影像组学的时候也有过类似的困惑,经过这几年的摸爬滚打,深入学习,我对这块更加熟悉,终于能总结出一些方法经验和简化代码。希望基于本平台,可以给大家在影像组学Radiomics和医学统计学等方面上提供一些思路和参考。
影像组学作为一门新生学科,需要不断深入研究和探索,希望通过此平台,与各位路人和大神多沟通,多学习,共同进步。
由于篇幅过长,我将分成多期推送,希望大家在研究的路上张弛有度,高效学习。
第一部分 影像组学的官网定义
“Radiomics”最早是由荷兰的学者Philippe Lambin提出来的(见下图),简言之,旨在用“高级特征分析法”从医学影像中提取出更多的信息来协助临床的一种辅助诊断方式。
解读:“高级特征法”其实就是针对“影像”中的某个“区域”,用特定的“工具”提取“信息”、“分析”信息,进而对临床进行“辅助诊断”。
“影像”:
常见的有平扫/增强CT、磁共振MRI、PET影像、超声、X-ray等(甚至简单至单张图片也可以执行,但基本不做),图像搜集完毕后可能需要进行格式转化、配准的内容。
“区域”:
区域就是指需被研究的内容,官方称“ROI,即Region Of Interest感兴趣区域”,这个ROI是需要被勾画出来的,也可以称“分割”,目前分割的方法有①全自动分割法(滑降区域生长法(region-growing methods)、图割法(graph cut methods)、基于容量CT的分割法(volumetric CT-based segmentation)或是基于深度学习模型结晶而成等等);②半自动分割算法(semiautomatic segmentations);③打工人手动分割法(ITK-SNAP(地址http://www.itksnap.org/pmwiki/pmwiki.php)、3D-slice(地址https://www.slicer.org/))是目前最常用的,为什么?你懂得。
“工具”:
目前常用的、公认的有①Pyradiomics(网址:https://pyradiomics.readthedocs.io/en/latest/index.html),这是一个基于Python语言环境下的开源库,可以理解为R语言内的函数包,可以用来提取特征,但需在Python环境下进行编码,才能完成,也有很多其他资料,请参考官网;②IBSI(Image Biomarker Standardisation Initiative),这是特征的定义、公式等纯理论具体内容,常用MATLAB、C++等语言实现;③IBEX,是MATLAB的一个程序,也是可以用于提取特征;④公司开发的软件,比如GE公司的AK、IF等。
“信息”:
目前为止大家绝大多数在探索组学特征,常用有①IBSI(Image Biomarker Standardisation Initiative),因此也可以称影像组学特征为影像(肿瘤/病理)标志物;②Pyradiomics。这些本质上是基于计算机视觉领域的图像分析领域-数据图像,因为说白了图像就是数字本身,因此可以通过一定的公式运算,形成有计算机含义的特征,①②基本上是一样的,只是在分类和数量上有点差异,大家选择其一使用即可。公式中存在几个如步长、翻转角的参数,改变他们就可以算出同名系列特征,这就是为什么有的人只提取几百个,而有的人能提取几千个特征的区别,但不一定越多越好,这目前尚无实证研究。特征的种类大致有以下几类(参考Pyradiomics)
中文可以这么翻译:一阶统计特征、2D/3D形状特征、灰度共生矩阵、灰度游程长度矩阵、灰度大小区域矩阵等等。找一个感受一下:
“信息”指的就是这些晦涩难懂的特征变量,研究到目前,除了组学特征,目前还常常引入稍微好理解的基因数据、病理、临床指标。
“分析信息”:
具体指的就是统计分析,影像组学绝大部分都是在做统计分析的工作,挖掘内在联系和模型构建与验证,这部分内容比较多,后续将一一推出核心内容和实现方法。
“辅助诊断”:
没错,就是字面意思。医学影像辅助诊断,辅助是的临床大夫对疾病的判断(比如肺结节的良性or恶性,肠癌/胃癌等良恶性判断、肿瘤分子分型、病理分级、疗效评估、预后预测等等,还有什么?那还不赶紧关注,下期分享)起初是针对肿瘤,除了良恶性判断,慢慢延伸至量化病情、治疗方案等,这具有重要的临床意义。影像均为数字图像,因此也成为“计算机辅助诊断(computer aided diagnosis,CAD)”
影像组学(&深度学习)也是医工交叉类的产物,具有广阔与深远的前景。虽然目前影像组学看似很完善,但其实流程上还有很多不足和难题,慢慢将在后期推出各种难题供大家思考,先卖个关子,比如最常见的Rad-score结合临床发现radiomics比临床贡献度更大,真的是这样吗?你品,你细品。
上图也是影像组学开山之作paper内的一张图,简单阐述了其运作模式:
获取图像-> 勾画 -> 特征提取 -> 统计分析
其中,前三步骤是一个“清洗”与“标准化”的过程,目的是为统计分析做准备,因此重点在最后的统计分析模块。说到底,影像组学核心底层实际上就是统计分析内容,比如特征数据的清洗、不平衡处理、PCA等特征筛选、机器学习模型构建,预测手段和评价指标,基本都是统计学领域,“挺烦的统计”就是专门研究和探索Radiomics、Medicine Statistics Analysis等等方面的频道。
希望大家在“挺烦的统计”这里能够消除烦恼,我尽量把所谓黑匣子打开,让大家尽可能往里面看一看,摸一摸。
PS:以上内容属笔者整理,如有不妥,敬请批评指正!
如果觉得内容不错,欢迎点赞和转发。
欢迎关注 “挺烦的统计”,共同交流学习!
往期回顾:
(老铁,这是第一期,关注我,科研旅途再不麻烦)