我知道lucene可以分词索引和不分词索引。我想知道是哪个占用的空间会比较大?非常感谢。目前测试的结果是不分词的结果会小一点。不知道真的是不是这样。
切词越细 切的词越多 索也就越大 有影响。
我没有仔细比较过,但是我认为做分词与不分词(应该是中文吧)更关键的要素是搜索的准确性(按词索引和按字索引),分词的结果会让搜索的精度提高,至于索引文件的大小,我没有测试过,应该不会有大的影响吧。
分词越细,索引文件越大。因为越细的话,lucene的term越多。想了解下lucene,可以看看《Lucene 原理与代码分析完整版.pdf》