lucene4.9 中文分词例子失败

代码是这样的

    Directory directory = new RAMDirectory();
CharArraySet c = new  CharArraySet(Version.LUCENE_4_9, 1, true);
        c.add("#");
        IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_4_9,new SmartChineseAnalyzer(Version.LUCENE_4_9,c));

        IndexWriter indexWriter = new IndexWriter(directory,conf);
        Document doc=new Document();
        doc.add(new StringField("keyword","青菜#土豆#牛肉" ,Field.Store.YES ));
        doc.add(new StringField("id","1aaa" ,Field.Store.YES));
        indexWriter.addDocument(doc);  
        indexWriter.close();
Term term = new Term("keyword", "土豆");   
        AtomicReader atomicReader = SlowCompositeReaderWrapper.wrap(DirectoryReader.open(directory));
        IndexSearcher searcher = new IndexSearcher(atomicReader);
        TopDocs tdoc = searcher.search(new TermQuery(term), 10);
        System.out.println(tdoc.totalHits);
        for(ScoreDoc s : tdoc.scoreDocs){
            Document firstHit =  searcher.doc(s.doc);
           System.out.println(firstHit.getField("id").stringValue());
        }

但是搜！不！到！，只有 Term = "青菜#土豆#牛肉" 才能全部收到。那个SmartChineseAnalyzer 我看文档，传入c 是stop标签，难道我理解错了？求解

该回答引用ChatGPT

根据你提供的代码，索引文档中的 "keyword" 字段内容为 "青菜#土豆#牛肉"，但是你搜索的时候却指定搜索 "土豆" 这个词条，这个词条在 "keyword" 字段中不存在，因此搜索结果为0。

如果你想要搜索到包含 "土豆" 这个词的文档，可以将 "keyword" 字段的值改为 "青菜#土豆#牛肉"。此时，当你搜索 "土豆" 的时候，应该能够搜索到包含 "土豆" 的文档。

另外，你在创建 SmartChineseAnalyzer 实例的时候，传入了一个 CharArraySet 对象作为参数。CharArraySet 中包含了一个 # 字符，这个字符会被 SmartChineseAnalyzer 作为停用词来过滤掉。因此，在你的例子中，"青菜#土豆#牛肉" 这个词条会被分成三个词："青菜"、"土豆" 和 "牛肉"。如果你想保留 # 字符作为分隔符，可以将 CharArraySet 对象的第三个参数设为 false，即：

CharArraySet c = new CharArraySet(Version.LUCENE_4_9, 1, false);
c.add("#");
IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_4_9, new SmartChineseAnalyzer(Version.LUCENE_4_9, c));

这样做的话，"青菜#土豆#牛肉" 就会被作为一个整体进行分词。

lucene4.9 中文分词例子 失败

lucene4.9 中文分词例子失败