我是要实现一个基于Lucene的简易的垂直搜索引擎,都知道Lucene建立索引和检索的时候需要用到分词器,这个分词器很重要,目前我的思路是按照字符串匹配的方法基于词典分词,这个词典包含了该领域的一些专有名词,那么这个词典要如何得来呢?一个领域这么多专有名词,难道要手工输入吗?
有通用的分词程序,但是专有名词这个需要找对应的词库。