如何快速从大量图片中，查找出相似图片

1 需求：学员的训练图片，经常有几百张，要求从几百张找出很类似的图片，展现在页面

2 方法：采用计算“汉明距离”来计算图片的相似度

/**
 * 计算"汉明距离"（Hamming distance）。
 * 如果不相同的数据位不超过5，就说明两张图片很相似；如果大于10，就说明这是两张不同的图片。
 * @param sourceHashCode 源hashCode
 * @param hashCode 与之比较的hashCode
 */
public static int hammingDistance(String sourceHashCode, String hashCode) {
    int difference = 0;
    int len = sourceHashCode.length();

    for (int i = 0; i < len; i++) {
        if (sourceHashCode.charAt(i) != hashCode.charAt(i)) {
            difference ++;
        } 
    }

    return difference;
}


/**
 * 生成图片指纹
 * @param filename 文件名
 * @return 图片指纹
 */
public static String produceFingerPrint(String filename) {
    BufferedImage source = ImageHelper.readPNGImage(filename);// 读取文件

    int width = 8;
    int height = 8;

    // 第一步，缩小尺寸。
    // 将图片缩小到8x8的尺寸，总共64个像素。这一步的作用是去除图片的细节，只保留结构、明暗等基本信息，摒弃不同尺寸、比例带来的图片差异。
    BufferedImage thumb = ImageHelper.thumb(source, width, height, false);

    // 第二步，简化色彩。
    // 将缩小后的图片，转为64级灰度。也就是说，所有像素点总共只有64种颜色。
    int[] pixels = new int[width * height];
    for (int i = 0; i < width; i++) {
        for (int j = 0; j < height; j++) {
            pixels[i * height + j] = ImageHelper.rgbToGray(thumb.getRGB(i, j));
        }
    }

    // 第三步，计算平均值。
    // 计算所有64个像素的灰度平均值。
    int avgPixel = ImageHelper.average(pixels);

    // 第四步，比较像素的灰度。
    // 将每个像素的灰度，与平均值进行比较。大于或等于平均值，记为1；小于平均值，记为0。
    int[] comps = new int[width * height];
    for (int i = 0; i < comps.length; i++) {
        if (pixels[i] >= avgPixel) {
            comps[i] = 1;
        } else {
            comps[i] = 0;
        }
    }

    // 第五步，计算哈希值。
    // 将上一步的比较结果，组合在一起，就构成了一个64位的整数，这就是这张图片的指纹。组合的次序并不重要，只要保证所有图片都采用同样次序就行了。
    StringBuffer hashCode = new StringBuffer();
    for (int i = 0; i < comps.length; i+= 4) {
        int result = comps[i] * (int) Math.pow(2, 3) + comps[i + 1] * (int) Math.pow(2, 2) + comps[i + 2] * (int) Math.pow(2, 1) + comps[i + 2];
        hashCode.append(binaryToHex(result));
    }

    // 得到指纹以后，就可以对比不同的图片，看看64位中有多少位是不一样的。
    return hashCode.toString();
}


public static void main(String args[]){
        String srcFile = "E:\\src.jpg";
        String descFile = "E:\\src.jpg";
        String srcHashCode = produceFingerPrint(srcFile);
        String descHashCode = produceFingerPrint(srcFile);
        int diff = hammingDistance(srcHashCode, descHashCode);
        if(diff == 0) System.out.println("两张图片一样");
}

3 问题：两种图片比对大约几百MS，几百张图片循环比对花费时间太长，有什么方式提高效果？

java有个并行处理，7以上fork join 到8的时候形式有点变，但是在数据量大的时候，或者运算比较复杂的时候，效率提升的很明显，你可以学习了解一下试试

刚才大概看了楼主的的算法和问题，建议有如下，如果楼主只是一台机子在跑的话，
1.很明显楼主的操作是分布，而且每一步所有的cpu和内存并不一样，所有每一步都开一个线程池，处理数据慢的步骤线程池开多一些，处理数据块的步骤线程池开少一些，自己调优，
2.针对线程池之间的通讯，可以用queue,如果在图片解析这一步所需要的内存比较多并且你自己内存撑不住的话，直接写到磁盘里面，够用就直接queue通讯就好了
3.其实楼上说的也对，fork/join框架主要是把大任务分解为任务，其实楼主写算法的时候就已经发步骤写的很清楚了，
4.个人认为，只要把cpu和内存跑到最高，那基本剩下的就只有算法优化了（比如解析图片算法，计算hash算法，比较像素灰度算法）。
5.如果有钱，直接搭一个大数据服务器，10多个G的数据也就是一两分钟的事