发现Ace cleaner 和 power cleaner 、猎豹都有重复图片识别的功能,其中power cleaner相对准确率高 ,也试图反编译了,但是关键代码没找到,这里分享根据网上常见的图片查重方法。缺点:(和power cleaner对比)慢,不太准确。后续会想办法提高
基本思想:
前序:
在谷歌图片搜索中,用户可上传一张图片,谷歌会将网上相似的图片展示出来
参考Neal Krawetz博士的文章, 实现这种功能的关键技术叫做"感知哈希算法"
主要思路:
1.缩小图片尺寸,缩小到8*8的图片(这一部分是去除图片尺寸比例的差异,只保留图片的明暗、结构等基本信息)
2.将图片转为64级灰度图片
3.计算图片中所有像素的灰度平均值
4.将每个像素的灰度值和平均灰度值进行对比,如果大于等于平均值标记为1,如果小于平均值标记为0
5.将上一步的比较结果数字组合到一起,就组成了一个64位的整数,这就是本图片的哈希值(指纹)
6.将图片的指纹进行对比,如果不相同的位数不超过5,则相似,超过5则不相似
结合代码进行说明:
1.缩小图片尺寸,缩小到8*8 的图片
scale_width =8.0f/ bitmap.getWidth();
scale_height =8.0f/ bitmap.getHeight();
Matrix matrix =newMatrix();
matrix.setScale(scale_width,scale_height); //进行缩放,缩放比例
scaledBitmap = Bitmap.createBitmap(bitmap,0,0,bitmap.getWidth(),bitmap.getHeight(),matrix, false);
2.算图片转成64级灰度(红色:#F00 绿色:#0F0 蓝色:#00F)
int width =8; int height =8;
double[][] pixels =new double[height][width];
for(int i =0;i < width;i++) {
for(int j =0;j < height;j++) {
int red = (pixel >>16) &0xFF;
int green = (pixel >>8) &0xFF;
int blue = (pixel) &255;
pixels[i][j] = 0.3* red +0.59* green +0.11* blue;
}}
3.获取灰度平均值 , 将2所得到的数组所有值加起来/64
4.将2获取的灰度值和灰度平均值对比 ,得到0/1 标记的数组
然后每张图片的唯一识别符进行对比就好了