elasticsearch技术实战——第一篇（使用篇）- 学习笔记- 青岛软件培训-选择一家好的青岛软件培训学校，就要看教学质量和口碑

为了提高搜索命中率和准确率，改善现有羸弱的搜索功能，公司决定搭建全文搜索服务。由于之前缺乏全文搜索使用经验，经过一番折腾，终于不负期望按期上线。总结了一些使用心得体会，希望对大家有所帮助。计划分三篇：

一、技术选型

说到全文搜索大家肯定会想到solr和elasticsearch（以下简称es），两者都是基于lucence，到底有什么区别呢？主要列出四个方面：

对比项	solr	elasticsearch
分布式	利用zookeeper进行分布式协调	自带分布式协调能力
数据格式	支持更多的数据格式（XML、JSON、CSV等）	仅支持JSON
查询性能	更适合偏传统的搜索应用，单纯对已有数据进行搜索性能更高，但实时建立索引时查询性能较差。	在实时搜索应用中表现更好，数据导入性能更好
数据量对查询性能影响	明显下降	影响不大

最终选择es，主要原因：

作为后起之秀，吸收了solr的优秀设计，在实时搜索上性能更佳，大有超越solr之势。
社区非常活跃，文档齐全，越来越多的应用从solr迁移至es。典型案例较多：GitHub使用es来检索超过1300亿行代码、Wikipedia 使用es提供带有高亮片段的全文搜索。

集群（cluster）和节点（node）：一个集群里包含多个节点，其中一个主节点通过选举产生，集群中任一节点的通信与整个es集群通信是等价的。
索引（index）：es包含一个或多个索引，相当于关系型数据库（以下简称RDS）里的数据库，可以向索引里写入或读取数据。
类型（type）：一个索引包含一个或多个type，相当于RDS里的表。
文档（document）：相当于RDS里的数据行，文档没有固定的格式（schemaless），与mongodb很类似。
分片（shards）：可以把一个大索引拆分成多个分片，分布到不同的节点上，提高检索效率。分片数在创建索引时确定，无法更改。
副本（replicas）：副本有两个作用，一是增加容错，当某个分片损坏或丢失时可以由其他副本恢复；二是增加系统负载，当搜索流量增加可以通过动态增加副本来满足要求。
倒排索引（inverted index）：由文档中所有不重复词的列表构成，对于其中每个词，有一个包含它的文档列表。倒排索引时lucence核心数据存储结构。

默认分词器对英文支持较好，但对中文不友好，会把中文拆分成一个个汉字，这显然不满足需求。

市面上中文分词器不少，该如何选择，主要考虑以下几点：

基于以上几点，很容易想到IK分词器，IK提供了两种分词模式：

分词模式

描述

ik_max_word

会将文本做最细粒度的拆分，比如会将“中华人民共和国国歌”

拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”，

会穷尽各种可能的组合

ik_smart

会做最粗粒度的拆分，比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”

IK分词器项目地址：https://github.com/medcl