solr 搜索引擎如何添加pdf文档 进行索引
我试过了,可以添加pdf文件,可是只有文件的名称能搜索到,如何我要是通过文件的内容进行搜索呢,该怎么做,请各位指教
该回答引用ChatGPT
要使 Solr 可以索引 PDF 文件的内容,您需要使用适当的提取器 (extractor) 将 PDF 文件的内容提取出来,并将其添加到 Solr 的索引中。Solr 提供了一个名为 Tika 的库,该库可以轻松地提取各种文件格式的内容,包括 PDF。
以下是添加 PDF 文件的步骤:
curl http://localhost:8983/solr/<your-collection>/update/extract \
-F "myfile=@<path-to-pdf-file>" \
-F "literal.id=<unique-id>" \
-F "literal.type=pdf" \
-F "fmap.content=content"
其中 是您要索引 PDF 文件的 Solr 集合的名称, 是要添加的 PDF 文件的路径, 是一个唯一的文档 ID,pdf 是文件类型的名称,content 是 Solr 中用于存储 PDF 内容的字段名称。http://localhost:8983/solr/<your-collection>/select?q=content:my+keyword
注意,如果您使用 Solr 的管理界面添加文档,则需要确保已正确配置 Tika 提取器并为 PDF 内容指定正确的字段名称。如果您使用 Solr 的 API 添加文档,则可以使用上面的示例代码片段作为参考。希望这可以帮助您将 PDF 文件添加到 Solr 索引中并进行搜索。