Yuan J, Liao H, Luo R, et al. Automatic radiology report generation based on multi-view image fusion and medical concept enrichment[C]//Medical Image Computing and Computer Assisted Intervention–MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13–17, 2019, Proceedings, Part VI 22. Springer International Publishing, 2019: 721-729.
论文导读
撰写医学报告需要专家,且很费时,因此需要可靠的自动生成报告器来减少医生工作量。此外,医学报告生成比一般的ImageCaption任务难,需要理解并把复杂的医学视觉内容和精确的自然语言描述联系起来。且网上可获取的数据集也比较少,更增加了任务的难度。本文提出了generative encoder-decoder model,专注于chest x-ray image and report。主要工作如下:
- 在大量的chest x-ray上预训练encoder,分类常见的14种影像学结果,并通过加强跨视图(视图是说从不同角度拍摄的医学影像)的一致性利用多视图图像。
- 以后期融合的方式,基于sentence-level attention机制合成了multi-view visual features。
- 为了用描述性语义丰富解码器并加强确定性医学相关内容(例如解剖学名词,病变名词)的正确性,我们根据训练数据中的放射学报告提取医学概念,fine-tune encoder以提取最常见的医学概念。这些概念通过word-level attention加入到decoder的每一个step中。
模型结构
1. Image Encoder
Encoder使用ResNet152作为backbone,一共完成了三个任务:胸片观察结果分类,多标签任务;Medical concepts提取;视觉特征提取,提取出的特征为,是patch(local region)的数量,是每一个patch的维度。
1.1 Chest Radiographic Observations
14类别的多标签分类任务,使用BCEloss。此外,每个样本有两张输入图像,为了使模型在不同的view上保持一致性,使用了MSEloss。总的loss函数如下:
1.2 Medical Concepts
使用Semrep提取归一化的medical concepts,设置出现次数threshold为80,提取到69个。固定好与训练好的encoder,添加了另一个全连接层,对concept进行分类。
2. Hierarchical Decoder
2.1 Sentence Decoder with Attentions
sentence decoder 输入visual features,生成sentence hidden states。但是图像有两个view,需要对特征进行选择并融合,本文提出了三种fusion schemes:
- 直接拼接
- 先拼接,再接Attention,使用之前的hidden state进行选择
- 先visual-sentence Attentions得到hidden states之后,再融合。
计算公式如下:
2.2 Word Decoder with Attentions
计算流程和上面一样,需要前一步的hidden state,concept embeddings,生成权重,再计算concept feature。最后再和前一个word embedding拼接,去生成下一个。计算公式如下: