关于后端:Python连接es笔记三之es更新操作

本文首发于公众号：Hunter 后端
原文链接：Python 连贯 es 笔记三之 es 更新操作

这一篇笔记介绍如何应用 Python 对数据进行更新操作。

对于 es 的更新的操作，不必到 Search() 办法，而是间接应用 es 的连贯加上相应的函数来操作，本篇笔记目录如下：

获取连贯
update()
update_by_query()
批量更新
UpdateByQuery()

如果应用的是之前的全局创立连贯的形式：

from elasticsearch_dsl import connections
connections.configure(default={"hosts": "localhost:9200"},
)

咱们能够依据别名获取相应的连贯：

conn = connections.connections.get_connection("default")

或者咱们间接应用 elasticsearch.Elasticsearch 模块来从新建设一个连贯：

from elasticsearch import Elasticsearch

conn = Elasticsearch(hosts="localhost:9200")

后面介绍过，咱们装置 elasticsearch_dsl 依赖的时候，会主动为咱们装置上相应的 elasticsearch 模块，咱们这里间接应用即可。

而后通过 conn 连贯能够间接对数据进行更新，可用的办法有 update()，update_by_query() 以及一个批量的 bulk() 办法。

update() 函数个别只用于指定 id 的更新操作，如果咱们晓得一条数据的 id，咱们能够间接应用 update()。

比方对于 exam 这个 index 下 id=18 的数据，咱们想要更新它的 name 字段和 address 字段别离为王五和湖南省，咱们能够如下操作：

conn.update(
    index="exam",
    id=18,
    body={
        "doc": {
            "name": "王五 2",
            "address": "湖南省",
        }
    }
)

在下面的操作中，index 为指定的索引，id 参数为咱们须要更新的 id，body 内 doc 下的字段即为咱们要更新的数据。

update_by_query() 函数不局限于 id 的查问更新，咱们能够更新任意符合条件的数据，以下是一个简略的示例：

conn.update_by_query(
    index="exam",
    body={
        "query": {"term": {"name":  "张三丰"}
        },
        "script": {
            "source": "ctx._source.address = params.address",
            "params": {"address": "新地址",}
        }
    }
)

在这里，index 参数还是指向对应的索引，body 内蕴含了须要更新查问的条件，这里都在 query 参数内，须要更新的数据在 script 下，通过脚本的模式来操作更新。

这里留神下，我这里用到的是 7.6.0 版本，所以 script 下应用的 source，更低一点版本用的字段可能是 inline，这里应用对应版本的参数即可。

在 script.source 中，内容为 ctx._source.address = params.address，意思是将符合条件数据的 address 字段内容更新为 params 的 address 的数据。

如果想要更改其余字段内容，留神后面 ctx._source 为固定写法，只须要更改前面的字段名即可。

在 script.params 中，咱们则能够定义各种对应的字段及其内容。

如果咱们想同时更新多个字段，比如说符合条件的数据将 address 改为 新地址，将 age 字段改为 28，咱们则须要将多个条件在 script.source 中应用分号 ; 连接起来，示例如下：

conn.update_by_query(
    index="exam",
    body={
        "query": {"term": {"name":  "新张三丰 2"}
        },
        "script": {
            "source": "ctx._source.address = params.address; ctx._source.age = params.age",
            "params": {
                "address": "新地址 3",
                "age": "28"
            }
        }
    }
)

尽管这里更新多个字段须要应用分号连贯，然而在理论的代码中咱们不必这么写死，比如说咱们须要更改三个字段，为 ["address", "name", "age"]，咱们如下操作：

field_list = ["address", "name", "age"]
source_list = [f"ctx._source.{key}=params.{key}" for key in field_list]

params = {
    "address": "新地址 3",
    "age": "28",
    "name": "new name"
}

conn.update_by_query(
    index="exam",
    body={
        "query": {"term": {"name":  "新张三丰 3"}
        },
        "script": {"source": ";".join(source_list),
            "params": params
        }
    }
)

如果咱们想批量更新一批数据，这批数据各个字段的值都不统一，自定义的水平很大，应用 update_by_query() 函数曾经不事实了，怎么办？

好解决，咱们能够应用 helpers.bulk() 批量更新办法。

首先引入这个模块：

from elasticsearch import helpers

假如咱们零碎里当初有 id 为 21，23，24 的几条数据，还是在 exam 这个索引下，咱们来结构几条须要更新的数据来操作：

action_1 = {
    "_op_type": "update",
    "_index": "exam",
    "_id": 21,
    "doc": {"age": 19, "name": "令狐冲", "address": "华山派"},
}

action_2 = {
    "_op_type": "update",
    "_index": "exam",
    "_id": 23,
    "doc": {"age": 20, "name": "杨过", "address": "终南山"},
}

action_3 = {
    "_op_type": "update",
    "_index": "exam",
    "_id": 24,
    "doc": {"age": 21, "name": "张无忌", "address": "武当"},
}
action_list = [action_1, action_2, action_3]
helpers.bulk(conn, actions=action_list)

对于每一条须要更新的数据，有这几个参数：

_op_type：如果是更新操作，其值则是 update

_index：示意须要更新的数据所在的索引，这里是 exam

_id：示意这条须要更新的数据的 id

doc：是一个 dict 数据，其下蕴含了须要更新的字段及其对应的值

至此，一条须要更新的数据的构造就结构结束了。

而后对于 helpers.bulk() 函数，接管的第一个参数为 es 连贯，actions 参数是一个列表，其内容就是咱们后面结构的数据的汇合。

而后执行这个操作就能够发现 es 中对应的值曾经更改了。

UpdateByQuery() 函数来源于 elasticsearch_dsl 模块，它的应用和 Search() 办法差不多，都是通过 using 和 index 参数来获取 es 连贯和索引：

from elasticsearch_dsl import connections
from elasticsearch_dsl import UpdateByQuery
from elasticsearch_dsl import Q as ES_Q

connections.configure(default={"hosts": "localhost:9200"},
)


ubq = UpdateByQuery(using="default", index="exam")

应用这个办法更新数据的具体语法和 update_by_query 差不多，都是通过 script 的形式来操作，以下是一个简略示例：

ubq = UpdateByQuery(using="default", index="exam")

q1 = ES_Q("term", name="郭靖")

ubq = ubq.query(q1)

ubq = ubq.script(
    source="ctx._source.address=params.address",
    params={"address": "襄阳城"}
)

ubq.execute()

与 Search() 函数一样，都须要通过 execute() 函数来向 es 提交数据。

如果想获取更多后端相干文章，可扫码关注浏览：

关于后端:Python连接es笔记三之es更新操作

1、获取连贯

2、update()

3、update_by_query()

更新多个字段

4、批量更新

5、UpdateByQuery()