Lucene全文检索去重问题

比如一个论坛的主题，，加答的内容有多个

例子：
spring是怎么？

回答一：spring是。。。。AA。。

回答二：spring是 BB

这样一来，你搜索回答spring时，就会出现多个”spring是怎么“的标题。。。。
Lucene里面提供了一个DuplicateFilter去重，，，不过这有个问题，，，他在去重时，只保留最后一条或最后一条，把其他的　忽略掉，，，如过滤最后一条时（回答二时），，，我搜“BB”就不会关联出标题。。。

。。。。。给个解决方案

fiter不是用来过滤掉你不要的文档，而是你要的文档

而且DuplicatedFilter因为位置的关系，“碰巧”让你碰到了最后一个或者第一个文档。。（你可以试试加入第三个文档，中文唯一的文档你永远弄不出来）

DuplicatedFilter只能过滤duplicated的文档

要解决这个办法，自己写出一个query，来合并结果集合

你对duplicateFilter的理解错了，比如说我们有一个主题,每个主题都有很多回答,每个主题又只有一个主题id，然而我们是按照一个回答作为 Document 进行索引的,于是进行搜索的时候,当一个主题的两个回答都包含关键词的时候,此主题 id 在结果集中出现两次,这是我们不想看到的。我们希望看到不同的主题。DuplicateFilter 就是做这个的。

解决办法的话，简单的就是

主题 + 回答一起作为document放进去

field id - 回答的id - 不分词，索引，存储
field text - 主题内容 + 回答内容 - 分词，索引，不存储

[quote]我设置就是按你设置的，我跟踪过他的源码，duplicateFilter的去重是根据先把所有的document里面有重复的去掉，然后再进行查询，这样一来，就产生里面的那个，问答缺失．．．．只剩下最后一条，或者第一条，并不是把查询出来的进行去重．．．．
[/quote]

我没有看源代码，但是我看的是api，duplicateFilter不适合你现在的场景。

既然你按照我的说法去做的，那么查询的到的结果应该只有问答的id，那么是不可能出现以下的情况的
[quote]这样一来，你搜索回答spring时，就会出现多个”spring是怎么“的标题[/quote]

你可以拿到这个ask id，来组合出各种表现形式

[quote]这个被他去重之后是只剩下一个，，我是要引申最下面的一个问题，，那就是我搜索
ＢＢ时，就搜索不到＂spring是怎么＂但是问题里面有一个"BB"的回答[/quote]

你还要指定duplicateFilter如何去重？如果你都知道怎么去重，那你加上一个FilteredQuery看看。。

不过我觉得去掉duplicateFilter，为啥你要如此执着？

我就不相信你在query的时候，
指定
BB Occor.MUST
spring OCCOR.MUST
你得到的结果里面没有 BB Spring ??

http://www.iteye.com/problems/search?query=spring+%E4%BA%8B%E7%89%A9+%E9%85%8D%E7%BD%AE

我在问答频道搜索spring 事物配置

你可以看到第一个出现的主题名字只有spring事物

你可以明显的感觉到，javaeye是把[b]所有问答[/b]和主题一起作为内容进行索引的，结果只有主题id，所以遮掩根本不需要用到duplicateFilter了

你的需求是这样子的么？

如果你希望在一个query里面，如果匹配出来的结果，你查询的某个term正好在主题里面，就现实单一主题，按照主题进行显示，后面再按照问答显示；如果你查询的所有terms都不再主题里面，就显示所有回答

用了ik分词的demo，你看看，是不是符合你的需求
[code="java"]
/**
*
*/
package org.wltea.analyzer.test;

import java.io.IOException;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.cn.ChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.*;
import org.apache.lucene.search.similar.MoreLikeThis;
import org.apache.lucene.search.similar.MoreLikeThisQuery;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;
import org.wltea.analyzer.lucene.IKQueryParser;
import org.wltea.analyzer.lucene.IKSimilarity;

/**

@author linly
*/
public class IKAnalyzerDemo {

public static void main(String[] args) {
//Lucene Document的域名;

//实例化IKAnalyzer分词器
Analyzer analyzer = new IKAnalyzer();

Directory directory = null;
IndexWriter iwriter = null;
IndexSearcher isearcher = null;
try {
    //建立内存索引对象
    directory = new RAMDirectory();
    iwriter = new IndexWriter(directory, analyzer, true, IndexWriter.MaxFieldLength.LIMITED);
    Document doc = new Document();
    doc.add(new Field("topicId", "1", Field.Store.YES, Field.Index.NOT_ANALYZED));
    doc.add(new Field("answerId", "1", Field.Store.YES, Field.Index.NOT_ANALYZED));
    doc.add(new Field("content", "spring 是怎么？ spring 是一个整合了多功能框架", Field.Store.YES, Field.Index.ANALYZED));
    iwriter.addDocument(doc);

    Document doc2 = new Document();
    doc2.add(new Field("topicId", "1", Field.Store.YES, Field.Index.NOT_ANALYZED));
    doc2.add(new Field("answerId", "2", Field.Store.YES, Field.Index.NOT_ANALYZED));
    doc2.add(new Field("content", "spring 是怎么？ spring 里面包含了模型-视图-控制", Field.Store.YES, Field.Index.ANALYZED));
    iwriter.addDocument(doc2);

    iwriter.close();

    //实例化搜索器
    isearcher = new IndexSearcher(directory);

    BooleanQuery bq = new BooleanQuery();
    TermQuery tq = new TermQuery(new Term("content", "模型"));
    bq.add(tq, BooleanClause.Occur.MUST);

    DuplicateFilter df = new DuplicateFilter("topicId");
    df.setKeepMode(DuplicateFilter.PM_FAST_INVALIDATION);

    //搜索相似度最高的5条记录
    TopDocs topDocs = isearcher.search(bq,df,5);
    System.out.println("命中：" + topDocs.totalHits);
    System.out.println("分数：" + topDocs.getMaxScore());
    //输出结果
    ScoreDoc[] scoreDocs = topDocs.scoreDocs;
    for (int i = 0; i < topDocs.totalHits; i++) {
        Document targetDoc = isearcher.doc(scoreDocs[i].doc);
        System.out.println("内容：" + targetDoc.toString());
    }

} catch (CorruptIndexException e) {
    e.printStackTrace();
} catch (LockObtainFailedException e) {
    e.printStackTrace();
} catch (IOException e) {
    e.printStackTrace();
} finally {
    if (isearcher != null) {
        try {
            isearcher.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    if (directory != null) {
        try {
            directory.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

}
}

[/code]