上下文金字塔
· 在密度预测过程中加入 局部信息+全局信息
· 第一次将焦点放在 生成高质量密度图,使用了PSNR/SSIM来评估
· 使用了对抗损失( adversarial loss),不只是欧几里得损失(Euclidean loss)

补充解释:
ablation study,消融实验,就是你在同时提出多个思路提升某个模型的时候,为了验证这几个思路分别都是有效的,做的控制变量实验的工作。、
相关工作分类为:基于回归的方法,基于密度图的方法,基于CNN的方法
1 GCE
基于VGG-16的神经网络,通过解析全局的上下文信息将输入图片分成不同密度等级(极低密度、低密度、中等密度、高密度、极高密度),留了VGG-16的所有卷积层,用新的全连接层替换掉了最后的三个全连接层来完成分类任务,后面两个卷积层参数被微调,其他卷积层参数固定不变。
2 LCE
侧重降低人群总数估计的误差,使用一系列CNN网络,LCE通过解析局部的上下文信息将输入图片patch分成不同密度等级(极低密度、低密度、中等密度、高密度、极高密度)。
3 DME
多列的神经网络,(结构类似与MCNN)。使用了更深的网络,修改了卷积核的尺寸和个数.DME将输入图片映射到高维的特征图,而不是直接生成密度图。该特征图将和GCE及LCE生成的上下文信息融合在一起作为F-CNN的输入。
4 F-CNN
在DME中使用最大池化层(这对于实现平移不变性是必不可少的),导致了变小的特征图和细节的丢失。为了生成高分辨率高质量的密度图,F-CNN使用了一系列卷积层和小数步长卷积层,小数步长卷积层帮助我们重建密度图的细节。F-CNN的结构为:CR(64,9)-CR(32,7)-TR(32)-CR(16,5)-TR(16)-C(1,1),C:卷积层,R:relu层,T:小数步长卷积层(反卷积层),小数步长卷积层保证了输入和输出的大小相同。使用对抗损失和像素级欧氏损失的组合,以端到端的方式与DME一起进行训练。
训练
数据集:GCE训练集取原图随机位置的1/4大小的patch,LCE训练集取原图随机位置64x64的pathch。
GCE基于VGG-16,所以输入图片被resize成224x224,LCE用64x64的patch训练,训练的ground truth种类由图片的人数决定。GCE,LCE都使用交叉熵损失。