Elasticsearch + ik 中文分词器实现对pdf、doc、txt等常见文档检索
先用 itext poi等库将pdf doc中的文本提取出来(txt直接读取),然后调用你的分词即可。
ik只是用来中文分词的,要实现对pdf,doc,txt的文档的检索,需要另一个插件mapper attachments plugin 。
使用这个插件,只需你将对应文件流,读成bytes 然后base64,插件会自动分析文件文本内容。
具体参见:https://www.elastic.co/guide/en/elasticsearch/plugins/5.2/mapper-attachments.html#mapper-attachments