医学报告生成 Automatic Radiology Report Generation based on Multi-view Image Fusion and Medical Concept...

Yuan J, Liao H, Luo R, et al. Automatic radiology report generation based on multi-view image fusion and medical concept enrichment[C]//Medical Image Computing and Computer Assisted Intervention–MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13–17, 2019, Proceedings, Part VI 22. Springer International Publishing, 2019: 721-729.

论文导读

撰写医学报告需要专家，且很费时，因此需要可靠的自动生成报告器来减少医生工作量。此外，医学报告生成比一般的ImageCaption任务难，需要理解并把复杂的医学视觉内容和精确的自然语言描述联系起来。且网上可获取的数据集也比较少，更增加了任务的难度。本文提出了generative encoder-decoder model，专注于chest x-ray image and report。主要工作如下：

在大量的chest x-ray上预训练encoder，分类常见的14种影像学结果，并通过加强跨视图（视图是说从不同角度拍摄的医学影像）的一致性利用多视图图像。
以后期融合的方式，基于sentence-level attention机制合成了multi-view visual features。
为了用描述性语义丰富解码器并加强确定性医学相关内容（例如解剖学名词，病变名词）的正确性，我们根据训练数据中的放射学报告提取医学概念，fine-tune encoder以提取最常见的医学概念。这些概念通过word-level attention加入到decoder的每一个step中。

模型结构

Multi-task CNN encoder + concept enriched hierarchical LSTM decoder

1. Image Encoder

Encoder使用ResNet152作为backbone，一共完成了三个任务：胸片观察结果分类，多标签任务；Medical concepts提取；视觉特征提取，提取出的特征为 $v \in \mathbb{R}^{k\times d_v}$ ， $k$ 是patch（local region）的数量， $d_v$ 是每一个patch的维度。