2017 CP-CNN 人群计数

上下文金字塔
· 在密度预测过程中加入 局部信息+全局信息
· 第一次将焦点放在 生成高质量密度图,使用了PSNR/SSIM来评估
· 使用了对抗损失( adversarial loss),不只是欧几里得损失(Euclidean loss)



补充解释:
ablation study,消融实验,就是你在同时提出多个思路提升某个模型的时候,为了验证这几个思路分别都是有效的,做的控制变量实验的工作。、

相关工作分类为:基于回归的方法,基于密度图的方法,基于CNN的方法

1 GCE

基于VGG-16的神经网络,通过解析全局的上下文信息将输入图片分成不同密度等级(极低密度、低密度、中等密度、高密度、极高密度),留了VGG-16的所有卷积层,用新的全连接层替换掉了最后的三个全连接层来完成分类任务,后面两个卷积层参数被微调,其他卷积层参数固定不变。

2 LCE

侧重降低人群总数估计的误差,使用一系列CNN网络,LCE通过解析局部的上下文信息将输入图片patch分成不同密度等级(极低密度、低密度、中等密度、高密度、极高密度)。

3 DME

多列的神经网络,(结构类似与MCNN)。使用了更深的网络,修改了卷积核的尺寸和个数.DME将输入图片映射到高维的特征图,而不是直接生成密度图。该特征图将和GCE及LCE生成的上下文信息融合在一起作为F-CNN的输入。

4 F-CNN

在DME中使用最大池化层(这对于实现平移不变性是必不可少的),导致了变小的特征图和细节的丢失。为了生成高分辨率高质量的密度图,F-CNN使用了一系列卷积层和小数步长卷积层,小数步长卷积层帮助我们重建密度图的细节。F-CNN的结构为:CR(64,9)-CR(32,7)-TR(32)-CR(16,5)-TR(16)-C(1,1),C:卷积层,R:relu层,T:小数步长卷积层(反卷积层),小数步长卷积层保证了输入和输出的大小相同。使用对抗损失和像素级欧氏损失的组合,以端到端的方式与DME一起进行训练。

训练

数据集:GCE训练集取原图随机位置的1/4大小的patch,LCE训练集取原图随机位置64x64的pathch。
GCE基于VGG-16,所以输入图片被resize成224x224,LCE用64x64的patch训练,训练的ground truth种类由图片的人数决定。GCE,LCE都使用交叉熵损失。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容