代码是这样的
Directory directory = new RAMDirectory();
CharArraySet c = new CharArraySet(Version.LUCENE_4_9, 1, true);
c.add("#");
IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_4_9,new SmartChineseAnalyzer(Version.LUCENE_4_9,c));
IndexWriter indexWriter = new IndexWriter(directory,conf);
Document doc=new Document();
doc.add(new StringField("keyword","青菜#土豆#牛肉" ,Field.Store.YES ));
doc.add(new StringField("id","1aaa" ,Field.Store.YES));
indexWriter.addDocument(doc);
indexWriter.close();
Term term = new Term("keyword", "土豆");
AtomicReader atomicReader = SlowCompositeReaderWrapper.wrap(DirectoryReader.open(directory));
IndexSearcher searcher = new IndexSearcher(atomicReader);
TopDocs tdoc = searcher.search(new TermQuery(term), 10);
System.out.println(tdoc.totalHits);
for(ScoreDoc s : tdoc.scoreDocs){
Document firstHit = searcher.doc(s.doc);
System.out.println(firstHit.getField("id").stringValue());
}
但是搜!不!到!,只有 Term = "青菜#土豆#牛肉" 才能全部收到。那个SmartChineseAnalyzer 我看文档,传入c 是stop标签,难道我理解错了?求解
该回答引用ChatGPT
根据你提供的代码,索引文档中的 "keyword" 字段内容为 "青菜#土豆#牛肉",但是你搜索的时候却指定搜索 "土豆" 这个词条,这个词条在 "keyword" 字段中不存在,因此搜索结果为0。
如果你想要搜索到包含 "土豆" 这个词的文档,可以将 "keyword" 字段的值改为 "青菜#土豆#牛肉"。此时,当你搜索 "土豆" 的时候,应该能够搜索到包含 "土豆" 的文档。
另外,你在创建 SmartChineseAnalyzer 实例的时候,传入了一个 CharArraySet 对象作为参数。CharArraySet 中包含了一个 # 字符,这个字符会被 SmartChineseAnalyzer 作为停用词来过滤掉。因此,在你的例子中,"青菜#土豆#牛肉" 这个词条会被分成三个词:"青菜"、"土豆" 和 "牛肉"。如果你想保留 # 字符作为分隔符,可以将 CharArraySet 对象的第三个参数设为 false,即:
CharArraySet c = new CharArraySet(Version.LUCENE_4_9, 1, false);
c.add("#");
IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_4_9, new SmartChineseAnalyzer(Version.LUCENE_4_9, c));
这样做的话,"青菜#土豆#牛肉" 就会被作为一个整体进行分词。