使用Elasticsearch7 java api实现pdf全文检索
前提:pdf的内容是文字形式而不是图片形式!
一.方法#
Elasticsearch实现pdf的全文检索,原理是将pdf转换为Base64,然后提取pdf的文字内容然后将其存储起来.
Elasticsearch已有相关Api提供,也给出了例子.链接如下:
我们来解读以下
那么获取那篇刚刚索引的数据,返回的json就为
其中content就是转换后的文字
注意,上述操作的前提之下是装了ingest-attachment插件,可以再es的根目录下直接运行下面的命令进行安装