利用数据增广进一步提升COVID-19患者的胸透检测正确率

©作者 |doreen

01 介绍

随着新冠病毒在全球大规模地传播,其较高的隐蔽性和极强的传染性为疫情防控带来了严峻的挑战。

对于医疗卫生行业来说,利用有效的方式筛选出被感染的患者显得尤为重要。

目前普遍采用的检测方法是核酸检测,但是其误报率较高且耗时较长。为了解决这个问题,胸部X光检测结合深度学习的分类算法凭借其误报率低、价格低廉、安全性好将成为核酸检测的理想替代品。

图1 胸部X光片(左图是COVID-19阳性图样,右图是阴性图样,红色部分标注了肺的轮廓,蓝色部分标注的肺部异常)

(图片来自论文:Improving COVID-19 CXR Detection with Synthetic Data Augmentation.

https://arxiv.org/abs/2112.07529

02 相关工作

目前在利用深度学习研究患者的胸部X光片来检测COVID-19方面已开展了许多工作。

由于数据来源不同,标注质量参差不齐,导致深度学习模型的预测结果受到了普遍质疑。

为了进一步提升模型的泛化性能,最有效的解决方案便是提高样本的多样性。

考虑到部分图像质量不佳,以及因个人隐私问题导致的数据获取途径困难,样本的多样性无法通过实地数据采集来实现。

考虑到深度学习领域中的GAN(Generative Adversarial Networks)在胸部X光片的检测中已有较好的应用效果。

因此可以通过利用GAN对现有的图像进行数据增广来提高样本的多样性,进而达到提高深度学习模型的泛化性能。

03 方法

1、利用StyleGAN进行数据增广

GAN是由研究人员于2014年提出的一种新的网络结构,最近几年在深度学习的视觉领域应用非常广泛。

GAN是基于二人零和博弈的思想,主要包括一个生成模型G和一个判别模型D。

在训练过程中生成模型G将生成的样本(伪样本)和真实样本随机地传送给判别模型D,判别模型D需尽可能识别出真实样本。同时,生成模型G要尽量最小化判别模型D判别出伪样本的概率。

因GAN具有生成以假乱真的图像的能力,其通常被研究人员稍作改进后生成了风格各异的图像,这就形成了新的网络结构StyleGAN。

StyleGAN的结构主要包括一个Mapping Network和一个Synthesis Network(如图2所示)。

传统GAN的输入z是一个符合均匀分布或高斯分布的随机向量。考虑到实际情况中X光片的图像数据并不符合如此理想的分布,因此StyleGAN中的隐藏变量z首先通过Mapping Network生成中间变量w从而达到控制生成的胸部X光片的风格(例如:图像的随机水平翻转、±5°内随机旋转等)。

接着将通过w转换后的仿射变换送入Synthesis Network 的每层子网络中,同时对每层子网络加入一定的随机噪声来调节图像的style。

通过这种方式,作者将COVID-19胸部X光片的公开数据集中选了13794张阴性结果的图像和2158张阳性结果的图像送入StyleGAN中分别生成了10000张阴性和10000张阳性结果的X光片。

图2 StyleGAN的结构

(图片来自论文:A Style-Based Generator Architecture for Generative Adversarial Networks. h

ttps://http://arxiv.org/abs/1812.04948

图3 通过ResNet50+StyleGAN识别的胸部X光片(左图是模型正确识别的真实的阳性结果的X光片,右图是模型正确识别的生成的阳性结果的X光片)(图片来自论文:Improving COVID-19 CXR Detection with Synthetic Data Augmentation. https://arxiv.org/abs/2112.07529

2、利用ResNet50进行图像检测

将增广后的1000张阳性结果的图像和1000张阴性结果的图像和原图像一起送入ResNet50模型进行训练。

为了提高训练效率,所有图像的尺寸都调整为224*224,并将minibatch设为16。作者采用了自适应优化器Adam solver,同时将交叉熵损失(cross-entropy)作为损失函数。

为了高效地管理内部学习率,作者将Adam solver与单周期学习(one-cycle learning)结合起来,将初始及最大学习率分别设置为0.001和0.006。

首先,作者把除最后一层的其他卷积层全部冻结,将模型训练了5轮,此时的学习率为初始学习率。

接着采用单周期学习策略,将所有的网络参数另外训练了30轮。

为了达到检测目的,原ResNet网络的最后一层全连接层改为一个线性分类器来区分阳性、阴性分类结果。

04 实验

为了验证GAN+ResNet50的检测效果,研究人员采样了同一个医疗机构的2019年11月至2020年5月566名患者(年龄从23岁到82岁之间,其中315名是女性)的胸部X光片,利用StyleGAN对其进行图像增广后将数据集划分成训练集、验证集和测试集(如表1所示)。

接着作者用ResNet50模型对图像进行分类,并从FI-score, precision和recall这三个指标检测了验证集和测试集结果的准确性(如表2所示)。

表1 数据集的划分结果

(表格来自论文:Improving COVID-19 CXR Detection with Synthetic Data Augmentation.

https://arxiv.org/abs/2112.07529

表2 图像增广前后模型的测试结果

(表格来自论文:Improving COVID-19 CXR Detection with Synthetic Data Augmentation.

https://arxiv.org/abs/2112.07529

从表1可以得出,对于验证集数据,不需要数据增广即可获得较好的检测效果;但对于测试集数据,数据增广后模型的检测效果普遍优于增广前的检测效果。

这可能是由于模型在对小批量数据的训练过程中出现了一定程度的过拟合,使得部分验证集数据的准确率达到了100%。

通过StyleGAN对图像进行增广后,输入样本的多样性开始增加,模型的泛化性能得到进一步提升,因此模型的检测效果有了明显的改善。

05 结论

实验结果证明深度学习确实可以很好地应用于单一源头的胸部X光片的检测。

通过采用StyleGAN对测试图像进行数据增广能在一定程度上提高模型的泛化性。然而在实际操作过程中,不同来源的图像质量不一,训练数据和测试数据分布的差异性较大,未来可以参考few-shot learning中小样本数据的处理方法来解决这个问题。

参考文献

Improving COVID-19 CXR Detection with Synthetic Data Augmentation.

https://arxiv.org/abs/2112.07529

A Style-Based Generator Architecture for Generative Adversarial Networks.

https://arxiv.org/abs/1812.04948

私信我领取目标检测与R-CNN/数据分析的应用/电商数据分析/数据分析在医疗领域的应用/NLP学员项目展示/中文NLP的介绍与实际应用/NLP系列直播课/NLP前沿模型训练营等干货学习资源。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容