登录注册写文章

如何在上亿张图片中找到相同的图片

如何在上亿张图片中找到相同的图片

论文地址 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.104.2585&rep=rep1&type=pdf

项目背景

有一些网站比如豆瓣拥有几十亿结构类似的图片, 为了更好的压缩, 豆瓣会对所有用户的图片生成大小一样的缩略图.

一些分析师想要在这些图片中找到某个小姐姐的地址如同大海捞针, 毕竟在豆瓣只要有400个粉丝就是大V了.

传统的图片内容hash工具, 比如pHash 在对图片进行处理时, 需要经过压缩->灰度化->LDT->编码这样的阶段, 大量的矩阵运算会拖垮运行效率.

而这篇论文的方法由于算法复杂度可控, 更适合寻找完全相同的图片

解决方法

打点

对任何一个图像进行稳定打点, 然后通过比较取样点, 和周围的8个取样点的明暗关系来形成一个唯一的hash码.

这种编码的结果是定长的, 且没有涉及到矩阵运算过程.所以相对来说速度会快的多.

因为它是通过采样来比较明暗关系, 所以它无法处理图片旋转, 切割, 颜色涂改的问题.
只能处理图片的小范围水印, 大小拉伸, 压缩的问题.

image.png

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

App图片压缩裁剪原理和上传方案，以及那些有趣的事儿...
本文始发于我的博文App图片压缩裁剪原理和上传方案，以及那些有趣的事儿...，现转发至此。目录 App怎么压缩质...
zackzheng阅读 19,543评论 20赞 130
【IOS开发进阶系列】动画专题
1 CALayer IOS SDK详解之CALayer（一） http://doc.okbase.net/Hell...
Kevin_Junbaozi阅读 5,215评论 3赞 23
浅析HEVC/H.265编码器中的熵编码
在保证视频图像质量的前提下，HEVC通过增加一定的计算复杂度，可以实现码流在H.264/AVC的基础上降低50%。...
加刘景长阅读 8,033评论 0赞 6
【图像检索】【TPAMI重磅综述】 SIFT与CNN的碰撞：万字长文回顾图像检索任务十年探索历程
由于简书对latex公式支持不太友好，因此为了更好的阅读体验，你可以移步至：【TPAMI重磅综述】 SIFT与C...
keloli阅读 6,212评论 0赞 18
音频及常用的格式
要在计算机内播放或是处理音频文件，也就是要对声音文件进行数、模转换，这个过程同样由采样和量化构成，人耳所能听到的声...
Viking_Den阅读 10,385评论 1赞 10

赞1赞

赞赏

手机看全文