论文地址 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.104.2585&rep=rep1&type=pdf
项目背景
有一些网站比如豆瓣拥有几十亿结构类似的图片, 为了更好的压缩, 豆瓣会对所有用户的图片生成大小一样的缩略图.
一些分析师想要在这些图片中找到某个小姐姐的地址如同大海捞针, 毕竟在豆瓣只要有400个粉丝就是大V了.
传统的图片内容hash工具, 比如pHash 在对图片进行处理时, 需要经过 压缩->灰度化->LDT->编码这样的阶段, 大量的矩阵运算会拖垮运行效率.
而这篇论文的方法由于算法复杂度可控, 更适合寻找完全相同的图片
解决方法
对任何一个图像进行稳定打点, 然后通过比较取样点, 和周围的8个取样点的明暗关系来形成一个 唯一的hash码.
这种编码的结果是定长的, 且没有涉及到矩阵运算过程.所以相对来说速度会快的多.
因为它是通过采样来比较明暗关系, 所以它无法处理图片旋转, 切割, 颜色涂改的问题.
只能处理图片的小范围水印, 大小拉伸, 压缩的问题.