这是我的博客系列“Elasticsearch 简介”的第一篇文章。本系列旨在指导您入门 Elasticsearch,了解其功能,现实生活中的用例以及熟悉 Elasticsearch 堆栈中的其余组件。该博客将为您简要介绍 Elasticsearch,其提供的解决方案以及选择 Elasticsearch 服务的原因。
如果你已经了解 Elasticsearch 是怎么回事,开始着手搭建,那我推荐你看这篇:elasticsearch 初学终极教程: 从零到一
一、什么是 Elasticsearch?
这是新手碰到的第一个问题!我来概括以下:
Elasticsearch 是一个 NoSql 数据库,其搜索引擎基于 Lucene 构建。Elasticsearch 提供了一个分布式的,基于 JSON 的实时,多租户的全文搜索解决方案。
即使上面的定义仅用两句话就结束了,但您还是不会听到很多术语。让我们拆分它们并分别进行探索
1 Lucene
简而言之,Lucene 是一个用 Java 编写的库。因此,下一个显而易见的问题是它的作用和功能是什么!
Lucene 是一个搜索库。这意味着,有一些用 Java 编写的函数和方法已针对不同的搜索策略进行了优化。Lucene 是有史以来最受欢迎的搜索库。大多数开源 / 商业搜索实现都以 Lucene 为骨干。
因此,在阅读了上面对 Lucene 的定义之后,出现了一系列问题,例如,如果 Elasticsearch 将 Lucene 用于搜索部分,为什么我们不能将裸露 Lucene 用于我们的目的呢?为什么选择 Elasticsearch?或者,Elasticsearch 和 Lucene 有什么区别?
这些问题的答案是,Lucene 是一个编写得非常出色的库,这也使得在根据最终客户需求进行定制时很难处理。因此,Elasticsearch 所做的就是在 Lucene 之上构建一个 API 层,这将使 Lucene 方法和功能的使用变得非常简单。
2. 分布式系统
除了在我们的应用程序中配置 Lucene 的难以置信的困难之外,使 Elasticsearch 优于 Lucene 的原因是前者的分布式特性。从本质上讲,分布式意味着 Elasticsearch 可以同时在不同的系统 / 节点上运行,并尝试利用网络中的系统资源来解决单个问题。Lucene 不支持此功能,它是许多实现的主要障碍。
3. 实时搜索
插入 Elasticsearch 的文档几乎可以立即用于搜索。此功能开箱即用,无需外部 / 附加配置。
4. 基于 JSON
Elasticsearch 使用基于 JSON 的通信。这意味着它将 JSON 格式用于 API 和其他通信。由于当今大多数 Web 应用程序和服务都以 JSON 进行通信,因此这在使用和互操作性方面提供了极大的灵活性。
5. 多租户能力
多租户是指一种应用程序的架构,其中服务器 / 云上的应用程序实例可以由具有不同级别可访问性选项的多个租户(用户组)访问。
二、Elasticsearch- 用例
1. 搜索
Elasticsearch 的主要用例和目的是使“搜索”更快,更好。因此,搜索是 Elasticsearch 的第一个用例。它提供了许多搜索策略,例如开箱即用的大小写相关 / 独立搜索,部分匹配,自动建议搜索。同样,根据用户依赖的策略(例如选择性加权,突出显示等)对搜索进行大量定制非常容易在 Elasticsearch 中构建和实现。这些因素使其成为搜索操作中最常见的选择。
2. 日志收集 / 解析和分析
Elasticsearch 与堆栈的其他成员(例如 Logstash)和 Beats 平台使从各种来源收集数据变得非常容易和顺畅。Logstash 和 Beats 使来自各种来源的数据转发变得容易,并且由于它们与 Elasticsearch 的本机集成,在 Elasticsearch 中设置和开始收集数据非常容易。
Elasticsearch 在这里解决的问题是需要来自不同来源的不同数据处理程序。也就是说,如果您要从不同来源收集日志并需要对日志进行标准化,则可以使用 Elasticsearch 的 Logstash 轻松处理此过程的数据转发和数据解析解析应用。因此,使用这种方法可以解决许多中间步骤,以及由此花费的时间和精力来制作标准格式。
使用 Elasticsearch 的可视化工具 Kibana 可以轻松可视化已解析和保存的数据。Elasticsearch 的功能内置了许多类型的分析功能,例如不同类型的聚合和许多统计计算,它们可以应用于日志,然后使用 Kibana 进行交互式可视化,以获取有关日志数据的有用见解。
3. 内容连接器
就像上一节中提到的日志一样,Elasticsearch 的下一个最大用例是来自众多来源的数据收集
如 Twitter,Sharepoint,JIVE 等。有强大的社区连接器插件可提取数据,并具有来自各种来源的所需自定义并将其添加到 Elasticsearch 中。反过来,这不仅可以为特定目的提供强大的数据收集,还可以使其变得可搜索。例如:可以将来自特定主题标签的数据流式传输到 Elasticsearch,然后,如果我们能够对该数据进行快速的搜索,请想象简化用户所需内容的简便性。卫报新闻社正在使用类似的实现方式,在那里将其新闻的最新评论流式传输到 Elasticsearch。然后,对这些数据进行分析并使其可搜索,以便他们可以尽快找到文章的趋势。
4. 即时可视化
快速数据可视化功能可在 Elasticsearch 中建立数据索引后的几分钟内创建具有洞察力的仪表板,这也是 Elasticsearch 堆栈的主要用例之一。Elasticsearch 提供的可视化工具是 Kibana,它可以依次加载来自 Elasticsearch 的数据并可以对它们进行大量分析,然后将其呈现为各种图表,可以按照任何顺序排列以创建报告 / 仪表板。应用程序监视区域可以使用 Kibana -Elasticsearch 组合找到大量用例,因为可以实时检测和应对异常或威胁。
三、为什么选择 Elasticsearch?
最后进入百万美元的问题,为什么要优先使用 Elasticsearch?让我们看看最完美地回答这个问题的最重要因素:
1. 可扩展性
使用 Elasticsearch 的主要优势之一是其可伸缩性。在大多数情况下,只需花费相当长的搜索时间,您就可以将数据索引到 Elasticsearch 中。是的,没错,在处理 Elasticsearch 的分布式特性时不会遇到麻烦或痛苦。Elasticsearch 自行处理缩放。例如,如果将一个新节点添加到集群中,则无需设置路由,也无需进行重大的关键设置更改即可使其可发现并正常运行,Elasticsearch 的主节点只需很少的干预即可解决此问题。。
2. 模式少
通过设计,Elasticsearch 被设计为无模式的应用程序。这意味着我们无需事先提供用于将文档放入 Elasticsearch 的架构。当涉及多个数据源时,这确实是一个巨大的缓解。在类似 MongoDb 的类似 NoSQL 数据库中,我们需要预先指定架构。在 Elasticsearch 中,我们可以对此部分感到叹为观止,然后就可以开始为数据建立索引了。如果没有模式,Elasticsearch 会自动为文档字段分配一个模式。
3. 定制
这个问题的另一个响亮答案,为什么是 Elasticsearch?是它在其提供的解决方案中提供的自定义选项。例如,如前一节所述,它为开发人员提供的搜索选项的自定义可以使搜索的几乎所有用例都包含在内。此外,Elasticsearch 的数据通信部分也可以通过多种方式完成,包括默认的插件,插件或用户开发的解决方案,可以与之完美集成。
4. 社区
最后但并非最不重要的一点是,由 Shay Banon 和其他同样才华横溢的开发人员领导的令人惊叹的社区使其成为强大的开源社区之一。社区的努力创建了许多插件,插件和库,从简单的分析器插件到数据河实现。快速的响应式论坛和活跃的在线状态也将节省大量开发时间。
四、结论
在本文中,我介绍了 Elasticsearch,其要解决的问题和问题以及拥有 Elasticsearch 的令人信服的原因。在该系列的下一篇文章中,我将向您简要介绍 Elasticsearch 堆栈以及每个组件的功能。
关于如何搭建 Elasticsearch,搭建可以看这篇