[PHP语言] ES在MySQL、PHP中的使用

[复制链接]
查看1411 | 回复10 | 2020-10-27 16:54:43 | 显示全部楼层 |阅读模式

ES简介

一个高扩展、开源的全文检索和分析引擎,它可以准实时地快速存储、搜索、分析海量的数据。
全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文搜索搜索引擎数据库中的数据

ES 为什么比 mysql 快

Mysql 只有 term dictionary 这一层,是以 b-tree 排序的方式存储在磁盘上的。检索一个 term 需要若干次的 random access 的磁盘操作。而 Lucene 在 term dictionary 的基础上添加了 term index 来加速检索,term index 以树的形式缓存在内存中。从 term index 查到对应的 term dictionary 的 block 位置之后,再去磁盘上找 term,大大减少了磁盘的 random access 次数。另外:term index 在内存中是以 FST(finite state transducers)的形式保存的,其特点是非常节省内存。Term dictionary 在磁盘上是以分 block 的方式保存的,一个 block 内部利用公共前缀压缩,比如都是 Ab 开头的单词就可以把 Ab 省去。这样 term dictionary 可以比 b-tree 更节约磁盘空间。

同步数据库

我们采取 MySQL 的数据存储,利用 MySQL 的事务特性维护数据一致性,使用 ElasticSearch 进行数据汇集和查询,此时 es 与数据库的同步方案就尤为重要。

流程

首先添加商品入数据库,添加商品成功后,商品入 ES,若入 ES 失败,将失败的商品 ID 放入 redis 的缓存队列,且失败的商品 ID 入 log 文件(若出现 redis 挂掉,可从日志中取异常商品 ID 然后再入 ES),task 任务每秒刷新一下 redis 缓存队列,若是从缓存队列中取到商品 ID,则根据商品 ID 从数据库中获取商品数据然后入 ES。

使用

logstash-input-jdbc 插件同步数据库,安装,配置:创建一个 .conf 文件,配置了要同步的数据库和.sql 用于执行的 sql 语句,最后把一个 jdbc 驱动放到这个文件夹下,用来连接 mysql 数据库

【相关学习推荐:mysql教程

可能遇到的问题

elasticsearch 数据重复以及增量同步

在默认配置下,tracking_column 这个值是 @timestamp,存在 elasticsearch 就是_id 值,是 logstash 存入 elasticsearch 的时间,这个值的主要作用类似 mysql 的主键,是唯一的,但是我们的时间戳其实是一直在变的,所以我们每次使用 select 语句查询的数据都会存入 elasticsearch 中,导致数据重复。

解决方法

在要查询的表中,找主键或者自增值的字段,将它设置为_id 的值,因为_id 值是唯一的,所以,当有重复的_id 的时候,数据就不会重复

数据同步频繁,影响 mysql 数据库性能

我们写入 jdbc.sql 文件的 mysql 语句是写死的,所以每次查询的数据库有很多是已经不需要去查询的,尤其是每次 select * from table; 的时候,对 mysql 数据库造成了非常大的压力

解决:

(1) 根据业务需求,可以适当修改定时同步时间,我这里对实时性相对要求较高,因此设置了 10 分钟 schedule => “*/10 * * * *”
(2) 设置 mysql 查询范围,防止大量的查询拖死数据库,在 sql 语句这里设置 select * from WHERE autoid > :sql_last_value;

elasticsearch 存储容量不断上升

elasticsearch 为了数据安全,接收到数据后,先将数据写入内存和 translog,然后再建立索引写入到磁盘,这样即使突然断电,重启后,还可以通过 translog 恢复,不过这里由于我们每次查询都有很多重复的数据,而这些重复的数据又没有写入到 elasticsearch 的索引中,所以就囤积了下来,导致 elasticsearch 容量就不断上升

解决:

查询官网说会定期 refresh,会自动清理掉老的日志,因此可不做处理

增量同步和 mysql 范围查询导致 mysql 数据库有修改时无法同步到以前的数据。

解决了 mysql 每次都小范围查询,解决了数据库压力的问题,不过却导致无法同步老数据的修改问题

解决:

可根据业务状态来做,如果你数据库是修改频繁类型,那只能做全量更新了,但是高频率大范围扫描数据库来做的索引还不如不做索引了 (因为建立索引也是有成本的),我们做索引主要是针对一些数据量大,不常修改,很消耗数据库性能的情况。我这里是数据修改较少,而且修改也一般是近期数据,因为同步时,我在 mysql 范围上面稍微调整一下

php 使用 ES

php composer 安装 composer require elasticsearch/elasticsearch
引入 es 文件 autoload.php 文件,设置 IP 地址
创建 index,index 对应关系型数据(以下简称 MySQL)里面的数据库,而不是对应 MySQL 里面的索引
有了数据库还不行,还需要建立表,ES 也是一样的,ES 中的 type 对应 MySQL 里面的表。type 不是单独定义的,而是和字段一起定义,字段定义在 body 中;当然可以在 body 字段中也能使用 ik 分词;
使用 EsClient->search () 实现搜索;
同义词和近义词的使用

【相关学习推荐:php编程(视频)】

配置分词器:配置 IK

下载 es 的 ik 版本包
在 es 目录下的 plugins 在创建 ik 目录,把下载 ik 的 zip 包所有文件解压进去。
进去 es 的 config 目录,编辑 elasticsearch.yml,在空白地方加上 index.analysis.analyzer.default.type : “ik” 即可。
拼音分词器配置:使用已经编译好的:elasticsearch-analysis-pinyin-1.3.0
在 elasticsearch 的 plugins 目录下,新建 analysis-pinyin 文件夹,解压压缩包,将里面的 jar 包放到 analysis-pinyin 文件夹。
在 elasticsearch.yml 里面配置拼音分词器的过滤器

同义词分词器配置

在 elasticsearch.yml 里面配置好同义词分词器的过滤器
配置同义词词库,在 elasticsearch 的 config 目录下新建 sysnonym.txt。
配置 ik+pinying + 同义词的分词器,主要有分词器的名称,类型,分割词元的组件,对分割的次元做处理:这里使用的是拼音和同义词

ES 关键字高亮显示

ES 通过在查询的时候可以在查询之后的字段数据加上 html 标签字段,使文档在在 web 界面上显示的时候是由颜色或者字体格式的,是在 highlight 修饰高亮字段, 这个部分包含了 name 属性匹配的文本片段,并以 HTML 标签 封装

ES 查询分页

Elasticsearch 中数据都存储在分片中,当执行搜索时每个分片独立搜索后,数据再经过整合返回。

一般查询流程为

1) 客户端请求发给某个节点
2) 节点转发给个个分片,查询每个分片上的前 10 条
3) 结果返回给节点,整合数据,提取前 10 条
4) 返回给请求客户端
当我们查询第 10 条到第 20 条的数据时,有两种方式,包括深度分页 (from-size) 和快照分页 (scroll);
深度分页 (from-size)

from 定义了目标数据的偏移值,size 定义当前返回的事件数目。默认 from 为 0,size 为 10,也就是说所有的查询默认仅仅返回前 10 条数据。查询前 20 条数据,然后截断前 10 条,只返回 10-20 的数据。浪费了前 10 条的查询。越往后的分页,执行的效率越低。分页的偏移值越大,执行分页查询时间就会越长

快照分页 (scroll)

相对于 from 和 size 的分页来说,使用 scroll 可以模拟一个传统数据的游标,记录当前读取的文档信息位置。这个分页的用法,不是为了实时查询数据,而是为了一次性查询大量的数据(甚至是全部的数据)。因为这个 scroll 相当于维护了一份当前索引段的快照信息,这个快照信息是你执行这个 scroll 查询时的快照。在这个查询后的任何新索引进来的数据,都不会在这个快照中查询到。但是它相对于 from 和 size,不是查询所有数据然后剔除不要的部分,而是记录一个读取的位置,保证下一次快速继续读取。
流程:

  • 调用: index/type/_search?pretty&scroll=2m,返回一个 scroll 值
  • 直接用 scroll_id 进行查询。
  • 清除 scroll,我们在设置开启 scroll 时,设置了一个 scroll 的存活时间,但是如果能够在使用完顺手关闭,可以提早释放资源,降低 ES 的负担

想了解更多编程学习,敬请关注php培训栏目!

以上就是ES在MySQL、PHP中的使用的详细内容,更多请关注爱上源码网其它相关文章!

  • 微信
  • 分享
  • 相关标签:ES MySQL PHP
  • 本文转载于:learnku,如有侵犯,请联系916990011@qq.com删除
    • 上一篇:PHP之斐波那契数列的N种算法
    • 下一篇:了解RabbitMQ+haProxy+keepalived的使用

    相关文章

    相关视频

    • CPU的ES版是什么意思?
    • php静态方法怎么调用非静态变量?
    • java和php接口的区别是什么
    • php无法加载php_curl.dll怎么办
    • php无法捕获异常怎么办
    • ES在MySQL、PHP中的使用
    • 通过PHP程序添加数据
    • 通过PHP程序查询数据
    • 析构函数基本介绍 php程序执行流程
    本文有爱上源码下载完入驻作者发布,如果对您版权造成侵害,可以联系本站站长管理进行维权删除,本站收到维权24小时内进行处理,谢谢您关注23ym.cn! 本站分享大量程序员技术文章以及对编程开发的初级入门教程,包括图文讲解笔记和高清视频下载~
    回复

    使用道具 举报

    豆芽角角123 | 2021-3-17 08:41:16 | 显示全部楼层
    我是来白嫖资源的!
    回复

    使用道具 举报

    伊索谗言 | 2021-11-29 20:27:04 | 显示全部楼层
    很不错的资源站
    回复

    使用道具 举报

    真无牙泛 | 2022-3-22 05:26:41 | 显示全部楼层
    支持悟空源码,越来越好
    回复

    使用道具 举报

    素身素 | 2022-6-3 20:04:04 | 显示全部楼层
    这个资源都有真不错
    回复

    使用道具 举报

    唐伯狼乌 | 2022-8-10 18:06:04 | 显示全部楼层
    我是来白嫖悟空源码的资源的!
    回复

    使用道具 举报

    涵涵爸爸520 | 2022-8-31 17:14:53 | 显示全部楼层
    感谢悟空源码分享精品资源!
    回复

    使用道具 举报

    123457751 | 2022-11-15 14:52:19 | 显示全部楼层
    有情怀的站啊,爱了
    回复

    使用道具 举报

    戏做顿 | 2023-5-18 11:59:14 | 显示全部楼层
    找了很多地方都不能下载,终于在悟空源码找到了
    回复

    使用道具 举报

    唐伯狼乌 | 2023-11-2 13:27:09 | 显示全部楼层
    5kym.cn这个站资源太全了
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则