ElasticSearch 从零到入门- 学习笔记- 青岛软件培训-选择一家好的青岛软件培训学校，就要看教学质量和口碑

目录 1 ElasticSearch 介绍 2 ElasticSearch 安装 3 ElasticSearch 配置文件介绍 3.1 elasticsearch.yml重要文件 3.2 jvm.options 配置文件 3.3 做实验用的配置文件 4 ElsaticSearch交互 5 ElasticSearch集群 5.1 搭建ES集群 5.2 查看集群的状态信息 6 ElasticSearch 插件 6.1 安装elasticsearch-head插件 7 ES集群分片一些常见问题 7.1 模拟ES节点故障 8 文档元数据 9 文档 10 索引的CRUD 11 规定shards的个数设置正文回到顶部 1 ElasticSearch 介绍 Elasticsearch 是一个实时的分布式搜索分析引擎，它能让你以一个之前从未有过的速度和规模，去探索你的数据。它被用作全文检索、结构化搜索、分析以及这三个功能的组合 Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域，Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是，Lucene只是一个库。想要使用它，你必须使用Java来作为开发语言并将其直接集成到你的应用中，更糟糕的是，Lucene非常复杂，你需要深入了解检索的相关知识来理解它是如何工作的 Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。 Elasticsearch 使用 JavaScript Object Notation 或者 JSON 作为文档的序列化格式。 JSON 序列化被大多数编程语言所支持，并且已经成为 NoSQL 领域的标准格式。它简单、简洁、易于阅读。考虑下面这个 JSON 文档，它代表了一个 user 对象： 1 2 3 4 5 6 7 8 9 10 11 { "email": "john@smith.com", "first_name": "John", "last_name": "Smith", "info": { "bio": "Eco-warrior and defender of the weak", "age": 25, "interests": [ "dolphins", "whales" ] }, "join_date": "2018/05/20" } 　　回到顶部 2 ElasticSearch 安装必须要有 java 环境 1 2 3 4 [root@ES-100 ~]# java -version openjdk version "1.8.0_65" OpenJDK Runtime Environment (build 1.8.0_65-b17) OpenJDK 64-Bit Server VM (build 25.65-b01, mixed mode) 　　 1. 下载elasticsearch 下载地址：下载的rpm包 https://www.elastic.co/cn/downloads/elasticsearch 我的版本是: elasticsearch-6.5.1 安装： 1 [root@ES-100 software]# rpm -ivh elasticsearch-6.5.1.rpm 　目录说明 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 配置文件目录在/etc/elasticsearch [root@ES-100 elasticsearch]# pwd /etc/elasticsearch [root@ES-100 elasticsearch]# tree . ├── elasticsearch.keystore ├── elasticsearch.yml #es 配置文件 ├── jvm.options # java 的配置文件 ├── log4j2.properties ├── role_mapping.yml ├── roles.yml ├── users └── users_roles 服务启动目录: [root@ES-100 init.d]# /etc/init.d/elasticsearch 插件所在目录 [root@ES-100 plugins]# pwd /usr/share/elasticsearch/plugins 　　启动es服务 1 2 3 4 5 开启自启 [root@ES-100 init.d]# systemctl enable elasticsearch.service 开启es [root@ES-100 init.d]# service elasticsearch start 　　测试是否安装成功 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 [root@ES-100 init.d]# curl 'http://localhost:9200/?pretty'; { "name" : "VeXx8SO", "cluster_name" : "elasticsearch", "cluster_uuid" : "RPk51B7bRUuVHHFAkns6Sw", "version" : { "number" : "6.5.1", "build_flavor" : "default", "build_type" : "rpm", "build_hash" : "8c58350", "build_date" : "2018-11-16T02:22:42.182257Z", "build_snapshot" : false, "lucene_version" : "7.5.0", "minimum_wire_compatibility_version" : "5.6.0", "minimum_index_compatibility_version" : "5.0.0" }, "tagline" : "You Know, for Search" } 　　回到顶部 3 ElasticSearch 配置文件介绍 Elasticsearch 已经有了很好的默认值，特别是涉及到性能相关的配置或者选项,其它数据库可能需要调优，但总得来说，Elasticsearch 不需要。如果你遇到了性能问题，解决方法通常是更好的数据布局或者更多的节点。 3.1 elasticsearch.yml重要文件 Elasticsearch 默认启动的集群名字叫 elasticsearch 可以在你的/etc/elasticsearch/elasticsearch.yml 中修改 1 cluster.name: elasticsearch_production 　　给每个节点设置一个有意义的、清楚的、描述性的名字，同样你可以在elasticsearch.yml 中配置： 1 node.name: elasticsearch_005_data 　　默认情况下， Elasticsearch 会把插件、日志以及你最重要的数据放在安装目录下。这会带来不幸的事故，如果你重新安装 Elasticsearch的时候不小心把安装目录覆盖了。如果你不小心，你就可能把你的全部数据删掉了。最好的选择就是把你的数据目录配置到安装目录以外的地方，同样你也可以选择转移你的插件和日志目录。默认的插件目录在/usr/share/elasticsearch/plugins 可以自定义更改如下： 1 2 3 4 5 path.data: /path/to/data1,/path/to/data2 # Path to log files: path.logs: /path/to/logs # Path to where plugins are installed: path.plugins: /path/to/plugins 　　最小主节点数 minimum_master_nodes 设定对你的集群的稳定极其重要,当你的集群中有两个 masters（注：主节点）的时候，这个配置有助于防止脑裂，一种两个主节点同时存在于一个集群的现象。如果你的集群发生了脑裂，那么你的集群就会处在丢失数据的危险中，因为主节点被认为是这个集群的最高统治者，它决定了什么时候新的索引可以创建，分片是如何移动的等等。如果你有两个 masters 节点，你的数据的完整性将得不到保证，因为你有两个节点认为他们有集群的控制权这个配置就是告诉 Elasticsearch 当没有足够 master 候选节点的时候，就不要进行 master 节点选举，等master 候选节点足够了才进行选举。此设置应该始终被配置为 master 候选节点的法定个数（大多数个）。法定个数就是 ( master 候选节点个数 / 2) + 1 。可以在你的 elasticsearch.yml 文件中这样配置： 1 discovery.zen.minimum_master_nodes: 2 Elasticsearch 默认被配置为使用单播发现　　使用单播，你可以为 Elasticsearch 提供一些它应该去尝试连接的节点列表。当一个节点联系到单播列表中的成员时，它就会得到整个集群所有节点的状态，然后它会联系 master 节点，并加入集群。这个配置在 elasticsearch.yml 文件中 1 discovery.zen.ping.unicast.hosts: ["host1", "host2:port"] 　　内存交换到磁盘对服务器性能来说是致命的需要打开配置文件中的 mlockall 开关。它的作用就是允许 JVM 锁住内存，禁止操作系统交换出去。在你的 elasticsearch.yml 文件中，设置如下： 1 bootstrap.mlockall: true 　绑定IP 　默认elasticsearch 只能访问自己127.0.0.1 ，如果需要让其他的机器的访问则需要在加上 1 network.host: 192.168.0.1 　　 3.2 jvm.options 配置文件 Elasticsearch 默认安装后设置的堆内存是 1 GB 你也可以通过命令行参数的形式，在程序启动的时候把内存小传递给它，如果你觉得这样更简单的话： 1 [root@ES-100 bin]# /usr/share/elasticsearch/bin/elasticsearch -Xmx10g -Xms10g 　　确保堆内存最小值（ Xms ）与最大值（ Xmx ）的大小是相同的，防止程序在运行时改变堆内存大小，这是一个很耗系统资源的过程。标准的建议是把 50％的可用内存作为 Elasticsearch 的堆内存,保留剩下的 50％。当然它也不会被浪费，Lucene 会利用起余下的内存. 但堆内存大小设置不要超过 32 GB 3.3 做实验用的配置文件这只是我做实验用的配置文件，具体环境，根据生产而定 elasticsearch.yml 1 2 3 4 [root@ES-100 ~]# egrep -v "^#|^$" /etc/elasticsearch/elasticsearch.yml path.data: /var/lib/elasticsearch path.logs: /var/log/elasticsearch network.host: 127.0.0.1,10.0.0.100 　　回到顶部 4 ElsaticSearch交互所有其他语言可以使用 RESTful API 通过端口 9200 和Elasticsearch 进行通信，你可以用你最喜爱的 web客户端访问 Elasticsearch 。事实上，正如你所看到的，你甚至可以使用 curl 命令来和 Elasticsearch 交互。一个 Elasticsearch 请求和任何 HTTP 请求一样由若干相同的部件组成： 1 curl -X '://:/?' -d '' 　　 VERB 适当的 HTTP 方法或谓词 :GET、 POST、 PUT、 HEAD或者 DELETE。 PROTOCOL http 或者 https（如果你在 Elasticsearch 前面有一个 https 代理） HOST Elasticsearch 集群中任意节点的主机名，或者用 localhost 代表本地机器上的节点 PORT 运行 Elasticsearch HTTP 服务的端口号，默认是 9200 。 PATH API 的终端路径（例如 _count 将返回集群中文档数量）。 Path 可能包含多个组件，例如：_cluster/stats 和 _nodes/stats/jvm 。 QUERY_STRING 任意可选的查询字符串参数 (例如 ?pretty 将格式化地输出 JSON 返回值，使其更容易阅读) BODY 一个 JSON 格式的请求体 (如果请求需要的话) 插入索引数据每个雇员索引一个文档，包含该雇员的所有信息。每个文档都将是 employee 类型。该类型位于索引 megacorp 内。该索引保存在我们的 Elasticsearch 集群中。 + View Code 　　查询索引中一行数据： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 [root@ES-100 ~]# curl -XGET 'localhost:9200/megacorp/employee/1?pretty' { "_index" : "megacorp", "_type" : "employee", "_id" : "1", "_version" : 1, "found" : true, "_source" : { "first_name" : "John", "last_name" : "Smith", "age" : 25, "about" : "I love to go rock climbing", "interests" : [ "sports", "music" ] } } 　　查询索引中的所有信息 1 [root@ES-100 ~]# curl -XGET 'localhost:9200/megacorp/employee/_search?pretty' 　　查询索引中符合条件的数据搜索姓氏为 Smith 的雇员 1 [root@ES-100 ~]# curl -XGET 'localhost:9200/megacorp/employee/_search?q=last_name:Smith&pretty' 　使用查询表达式查询想要的数据 Query-string 搜索通过命令非常方便地进行临时性的即席搜索，但它有自身的局限性 Elasticsearch 提供一个丰富灵活的查询语言叫做查询表达式，它支持构建更加复杂和健壮的查询。领域特定语言（DSL），指定了使用一个 JSON 请求。我们可以像这样重写之前的查询所有 Smith 的搜索： 1 2 3 4 5 6 7 8 curl -XGET 'localhost:9200/megacorp/employee/_search?pretty' -H 'Content-Type: application/json' -d' { "query" : { "match" : { "last_name" : "Smith" } } } ' 　　返回结果与之前的查询一样，但还是可以看到有一些变化。其中之一是，不再使用 query-string 参数，而是一个请求体替代。这个请求使用 JSON 构造，并使用了一个 match 查询搜索姓氏为 Smith 的雇员，但这次我们只需要年龄大于 30 的。查询需要稍作调整，使用过滤器 filter ，它支持高效地执行一个结构化查询 + View Code 　　 range 过滤器，它能找到年龄大于 30 的文档，其中 gt 表示_大于(_great than) 全文检索搜索下所有喜欢攀岩（rock climbing）的雇员： 1 2 3 4 5 6 7 8 curl -XGET 'localhost:9200/megacorp/employee/_search?pretty' -H 'Content-Type: application/json' -d' { "query" : { "match_phrase" : { "about" : "rock climbing" } } }' 　　回到顶部 5 ElasticSearch集群 Elasticsearch 可以横向扩展至数百（甚至数千）的服务器节点，同时可以处理PB级数据 Elasticsearch 天生就是分布式的，并且在设计时屏蔽了分布式的复杂性。 Elasticsearch 尽可能地屏蔽了分布式系统的复杂性。这里列举了一些在后台自动执行的操作：分配文档到不同的容器或分片中，文档可以储存在一个或多个节点中按集群节点来均衡分配这些分片，从而对索引和搜索过程进行负载均衡复制每个分片以支持数据冗余，从而防止硬件故障导致的数据丢失将集群中任一节点的请求路由到存有相关数据的节点集群扩容时无缝整合新节点，重新分配分片以便从离群节点恢复一个运行中的 Elasticsearch 实例称为一个节点，而集群是由一个或者多个拥有相同 cluster.name 配置的节点组成，它们共同承担数据和负载的压力。当有节点加入集群中或者从集群中移除节点时，集群将会重新平均分布所有的数据。当一个节点被选举成为主节点时，它将负责管理集群范围内的所有变更，例如增加、删除索引，或者增加、删除节点等。而主节点并不需要涉及到文档级别的变更和搜索等操作，所以当集群只拥有一个主节点的情况下，即使流量的增加它也不会成为瓶颈。任何节点都可以成为主节点。我们的示例集群就只有一个节点，所以它同时也成为了主节点。作为用户，我们可以将请求发送到集群中的任何节点，包括主节点。每个节点都知道任意文档所处的位置，并且能够将我们的请求直接转发到存储我们所需文档的节点。无论我们将请求发送到哪个节点，它都能负责从各个包含我们所需文档的节点收集回数据，并将最终结果返回給客户端。 Elasticsearch 对这一切的管理都是透明的。 Elasticsearch 的集群监控信息中包含了许多的统计数据，其中最为重要的一项就是集群健康，它在 status 字段中展示为 green 、 yellow 或者 red + View Code 　　 status 字段是要关注的 status 字段指示着当前集群在总体上是否工作正常。它的三种颜色含义如下： green：所有的主分片和副本分片都正常运行 yellow: 所有的主分片都正常运行，但不是所有的副本分片都正常运行。 red: 有主分片没能正常运行。往 Elasticsearch 添加数据时需要用到索引 —— 保存相关数据的地方。索引实际上是指向一个或者多个物理分片的逻辑命名空间一个分片是一个底层的工作单元，它仅保存了全部数据中的一部分文档被存储和索引到分片内，但是应用程序是直接与索引而不是与分片进行交互。 Elasticsearch 是利用分片将数据分发到集群内各处的。分片是数据的容器，文档保存在分片内，分片又被分配到集群内的各个节点里。当你的集群规模扩大或者缩小时， Elasticsearch 会自动的在各节点中迁移分片，使得数据仍然均匀分布在集群里。一个分片可以是主分片或者副本分片。索引内任意一个文档都归属于一个主分片，所以主分片的数目决定着索引能够保存的最大数据量一个副本分片只是一个主分片的拷贝。副本分片作为硬件故障时保护数据不丢失的冗余备份，并为搜索和返回文档等读操作提供服务。在索引建立的时候就已经确定了主分片数，但是副本分片数可以随时修改。索引在默认情况下会被分配5个主分片，但可以在创建索引时指定分配3个主分片和一份副本（每个主分片拥有一个副本分片）例如下面建立了一个索引名叫: blogs ，设置了3个主分片，1个副本分片 1 2 3 4 5 6 7 curl -XPUT 'localhost:9200/blogs?pretty' -H 'Content-Type: application/json' -d' { "settings" : { "number_of_shards" : 3, "number_of_replicas" : 1 } } ' 　　 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 [root@ES-100 ~]# curl -XGET 'localhost:9200/_cluster/health?pretty' { "cluster_name" : "elasticsearch", "status" : "yellow", "timed_out" : false, "number_of_nodes" : 1, "number_of_data_nodes" : 1, "active_primary_shards" : 8, "active_shards" : 8, "relocating_shards" : 0, "initializing_shards" : 0, "unassigned_shards" : 8, "delayed_unassigned_shards" : 0, "number_of_pending_tasks" : 0, "number_of_in_flight_fetch" : 0, "task_max_waiting_in_queue_millis" : 0, "active_shards_percent_as_number" : 50.0 } 　　 megacorp 有 5个主分片， blogs 有3个主分片，现在集群有8个主分片， 8个副本分片，现在集群只有一个节点。所有集群中8个副本分片都是 unassigned —— 它们都没有被分配到任何节点。在同一个节点上既保存原始数据又保存副本是没有意义的，因为一旦失去了那个节点，我们也将丢失该节点上的所有副本数据。当前我们的集群是正常运行的，但是在硬件故障时有丢失数据的风险当第二个节点加入到集群后，3个副本分片将会分配到这个节点上——每个主分片对应一个副本分片。这意味着当集群内任何一个节点出现问题时，我们的数据都完好无损。所有新近被索引的文档都将会保存在主分片上，然后被并行的复制到对应的副本分片上。这就保证了我们既可以从主分片又可以从副本分片上获得文档。 5.1 搭建ES集群 host IP linux version es version ES-100 10.0.0.100 centos-7.2 es-6.5.1 ES-101 10.0.0.101 centos-7.2 es-6.5.1 在两台机器分别安装好elasticsearch 在两个节点的elasticsearch.yml上设置相同的cluster_name，但不同的node_name 在两个节点上设置相互发现的配置：discovery.zen.ping.unicast.hosts 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 ES-100的机器配置： [root@ES-100 ~]# egrep -v '^#|^$' /etc/elasticsearch/elasticsearch.yml cluster.name: es-test node.name: es-test01 path.data: /var/lib/elasticsearch path.logs: /var/log/elasticsearch network.host: 127.0.0.1,10.0.0.100 discovery.zen.ping.unicast.hosts: ["10.0.0.100", "10.0.0.101"] discovery.zen.minimum_master_nodes: 2 ES-101的机器配置： [root@ES-101 ~]# egrep -v '^#|^$' /etc/elasticsearch/elasticsearch.yml cluster.name: es-test node.name: es-test02 path.data: /var/lib/elasticsearch path.logs: /var/log/elasticsearch network.host: 127.0.0.1,10.0.0.101 discovery.zen.ping.unicast.hosts: ["10.0.0.100", "10.0.0.101"] discovery.zen.minimum_master_nodes: 2 两台机器重启ES： service elasticsearch restart 　　重启之后查看集群整体节点数量： 5.2 查看集群的状态信息 1. 查看集群状态 1 2 3 [root@ES-100 ~]# curl 'localhost:9200/_cat/health?v' 或者 [root@ES-101 ~]# curl 'localhost:9200/_cluster/health?pretty' 　　重要参数解释： cluster_name: 表示集群名称，所有节点的集群名称必须一致 status：表示集群状态 green：所有的主分片和副本分片都正常运行 yellow: 所有的主分片都正常运行，但不是所有的副本分片都正常运行。 red: 有主分片没能正常运行。 number_of_nodes: 表示es集群有几个节点 active_primary_shards: 8 表示有8个主分片 active_shards: 16 表示一共有16个分片 unassigned_shards: 0 表示未分配分片查看节点列表 1 2 3 4 [root@ES-100 ~]# curl 'localhost:9200/_cat/nodes?v' ip heap.percent ram.percent cpu load_1m load_5m load_15m node.role master name 10.0.0.101 13 97 0 0.00 0.01 0.05 mdi * es-test02 10.0.0.100 12 95 0 0.00 0.01 0.05 mdi - es-test01 　　 master 下面的*号表示管理节点查看所有索引信息 1 [root@ES-100 ~]# curl 'localhost:9200/_cat/indices?v' 　　 index ：表示es 集群有哪些索引，例如megacorp 这个索引，一共在5个主分片(pri)，一个副本，索引里的文档一共是24.9KB大小计算集群中文档的数量 1 2 3 4 5 6 curl -H "Content-Type: application/json" -XGET 'http://localhost:9200/_count?pretty' -d ' { "query": { "match_all": {} } } ' 　　回到顶部 6 ElasticSearch 插件 ElasticSearch的图形化界面插件很多，现在最常用的elasticsearch-head，早期版本用marvel-agent。上面全是用的curl 方式查看es 相应的一些信息，命令太多很繁琐。这个时候就可以用elasticsearch-head插件，使用web界面的来查看es集群的状态，节点信息，创建索引，设置分片等等功能。 6.1 安装elasticsearch-head插件有若干种安装方式，比如压缩包安装，docker安装，但最简单的方式还是直接使用浏览器插件确保服务器上的es运行，使用chrome浏览器，安装专门的浏览器插件。 https://github.com/mobz/elasticsearch-head 安装方法如下: 1 2 3 4 5 6 7 8 git clone git://github.com/mobz/elasticsearch-head.git cd elasticsearch-head npm install #这时候可能会报错需要升级openssl,如果没报错则不用安装 yum update openssl -y #再安装 npm install npm run start 　　出现以下界面访问：http://10.0.0.100:9100 有点问题，不能连接到es 配置一下允许跨域请求设置：在es集群的所有es节点给加上/etc/elasticsearch/elasticsearch.yml 1 2 http.cors.enabled: true http.cors.allow-origin: "*" 　　重启ES服务,查看web界面 ok，这个时候就可以同web界面来操作es 粗黑线框是主分片 docs：表示这个索引有多少数据星号表示管理节点，

万码学堂2025年课程全面升级

ElasticSearch 从零到入门

青岛软件培训

联系我们

电话咨询

扫码添加微信