比如一个论坛的主题,,加答的内容有多个
例子:
spring是怎么?
回答一:spring是。。。。AA。。
回答二:spring是 BB
这样一来,你搜索回答spring时,就会出现多个”spring是怎么“的标题。。。。
Lucene里面提供了一个DuplicateFilter去重,,,不过这有个问题,,,他在去重时,只保留最后一条或最后一条,把其他的 忽略掉,,,如过滤最后一条时(回答二时),,,我搜“BB”就不会关联出标题。。。
。。。。。给个解决方案
fiter不是用来过滤掉你不要的文档,而是你要的文档
而且DuplicatedFilter因为位置的关系,“碰巧”让你碰到了最后一个或者第一个文档。。(你可以试试加入第三个文档,中文唯一的文档你永远弄不出来)
DuplicatedFilter只能过滤duplicated的文档
要解决这个办法,自己写出一个query,来合并结果集合
你对duplicateFilter的理解错了,比如说我们有一个主题,每个主题都有很多回答,每个主题又只有一个主题id,然而我们是按照一个回答作为 Document 进行索引的,于是进行搜索的时候,当一个主题的两个回答都包含关键词的时候,此主题 id 在结果集中出现两次,这是我们不想看到的。我们希望看到不同的主题。DuplicateFilter 就是做这个的。
解决办法的话,简单的就是
主题 + 回答 一起作为document放进去
field id - 回答的id - 不分词,索引,存储
field text - 主题内容 + 回答内容 - 分词,索引,不存储
[quote]我设置就是按你设置的,我跟踪过他的源码,duplicateFilter的去重是根据先把所有的document里面有重复的去掉,然后再进行查询,这样一来,就产生里面的那个,问答缺失....只剩下最后一条,或者第一条,并不是把查询出来的进行去重....
[/quote]
我没有看源代码,但是我看的是api,duplicateFilter不适合你现在的场景。
既然你按照我的说法去做的,那么查询的到的结果应该只有问答的id,那么是不可能出现以下的情况的
[quote]这样一来,你搜索回答spring时,就会出现多个”spring是怎么“的标题[/quote]
你可以拿到这个ask id,来组合出各种表现形式
[quote]这个被他去重之后是只剩下一个,,我是要引申最下面的一个问题,,那就是我搜索
BB时,就搜索不到"spring是怎么"但是问题里面有一个"BB"的回答[/quote]
你还要指定duplicateFilter如何去重?如果你都知道怎么去重,那你加上一个FilteredQuery看看。。
不过我觉得去掉duplicateFilter,为啥你要如此执着?
我就不相信你在query的时候,
指定
BB Occor.MUST
spring OCCOR.MUST
你得到的结果里面没有 BB Spring ??
http://www.iteye.com/problems/search?query=spring+%E4%BA%8B%E7%89%A9+%E9%85%8D%E7%BD%AE
我在问答频道搜索spring 事物 配置
你可以看到第一个出现的主题名字只有spring事物
你可以明显的感觉到,javaeye是把[b]所有问答[/b]和主题一起作为内容进行索引的,结果只有主题id,所以遮掩根本不需要用到duplicateFilter了
你的需求是这样子的么?
如果你希望在一个query里面,如果匹配出来的结果,你查询的某个term正好在主题里面,就现实单一主题,按照主题进行显示,后面再按照问答显示;如果你查询的所有terms都不再主题里面,就显示所有回答
用了ik分词的demo,你看看,是不是符合你的需求
[code="java"]
/**
*
*/
package org.wltea.analyzer.test;
import java.io.IOException;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.cn.ChineseAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.Term;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.ParseException;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.*;
import org.apache.lucene.search.similar.MoreLikeThis;
import org.apache.lucene.search.similar.MoreLikeThisQuery;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.LockObtainFailedException;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;
import org.wltea.analyzer.lucene.IKQueryParser;
import org.wltea.analyzer.lucene.IKSimilarity;
/**
@author linly
*/
public class IKAnalyzerDemo {
public static void main(String[] args) {
//Lucene Document的域名;
//实例化IKAnalyzer分词器
Analyzer analyzer = new IKAnalyzer();
Directory directory = null;
IndexWriter iwriter = null;
IndexSearcher isearcher = null;
try {
//建立内存索引对象
directory = new RAMDirectory();
iwriter = new IndexWriter(directory, analyzer, true, IndexWriter.MaxFieldLength.LIMITED);
Document doc = new Document();
doc.add(new Field("topicId", "1", Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("answerId", "1", Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("content", "spring 是怎么? spring 是一个整合了多功能框架", Field.Store.YES, Field.Index.ANALYZED));
iwriter.addDocument(doc);
Document doc2 = new Document();
doc2.add(new Field("topicId", "1", Field.Store.YES, Field.Index.NOT_ANALYZED));
doc2.add(new Field("answerId", "2", Field.Store.YES, Field.Index.NOT_ANALYZED));
doc2.add(new Field("content", "spring 是怎么? spring 里面包含了模型-视图-控制", Field.Store.YES, Field.Index.ANALYZED));
iwriter.addDocument(doc2);
iwriter.close();
//实例化搜索器
isearcher = new IndexSearcher(directory);
BooleanQuery bq = new BooleanQuery();
TermQuery tq = new TermQuery(new Term("content", "模型"));
bq.add(tq, BooleanClause.Occur.MUST);
DuplicateFilter df = new DuplicateFilter("topicId");
df.setKeepMode(DuplicateFilter.PM_FAST_INVALIDATION);
//搜索相似度最高的5条记录
TopDocs topDocs = isearcher.search(bq,df,5);
System.out.println("命中:" + topDocs.totalHits);
System.out.println("分数:" + topDocs.getMaxScore());
//输出结果
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
for (int i = 0; i < topDocs.totalHits; i++) {
Document targetDoc = isearcher.doc(scoreDocs[i].doc);
System.out.println("内容:" + targetDoc.toString());
}
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
if (isearcher != null) {
try {
isearcher.close();
} catch (IOException e) {
e.printStackTrace();
}
}
if (directory != null) {
try {
directory.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
}
[/code]