关于python:Python-Sqlalchemy-对数据库的批量插入或更新Upsert

44次阅读

共计 2517 个字符，预计需要花费 7 分钟才能阅读完成。

本篇承接上一篇《Mysql 数据库的批量插入或更新（Upsert）》的内容，来看看在 Python 中，怎么实现大量数据的 upsert（记录存在就更新，不存在则插入）。

因为不同数据库对这种 upsert 的实现机制不同，Sqlalchemy 也就不再试图做一致性的封装了，而是提供了各自的方言 API，具体到 Mysql，就是给 insert statement，减少了 on_duplicate_key_update 办法。

假如表数据模型如下：

class TableA(db.Model):
    __tablename__ = 'table_a'
    __table_args__ = (db.UniqueConstraint('a', 'b', name='table_a_a_b_unique'))

    id = db.Column(db.Integer, primary_key=True)
    a = db.Column(db.Integer)
    b = db.Column(db.Integer)
    c = db.Column(db.Integer)

其中 id 是自增主键，a, b 组成了惟一索引。那么对应的 upsert 语句如下：
from sqlalchemy.dialects.mysql import insert

insert(TableA).values(a=1, b=2, c=3).on_duplicate_key_update(c=3)

跟 SQL 语句相似，咱们能够不必每次都反复填写 insert 和 update 的数值：

update_keys = ['c']
insert_stmt = insert(table_cls).values(a=1, b=2, c=3)
update_columns = {x.name: x for x in insert_stmt.inserted if x.name in update_keys}
upsert_stmt = insert_stmt.on_duplicate_key_update(**update_columns)
db.session.execute(upsert_stmt)

留神，最初一句 on_duplicate_key_update 的参数是须要开展的，不承受 dict 作为参数

同样，insert 语句是反对传一组数据作为参数的：

records = {[
    'a':1,
    'b':2,
    'c':3
],[
    'a':10,
    'b':20,
    'c':4
],[
    'a':20,
    'b':30,
    'c':5
]}

update_keys = ['c']
insert_stmt = insert(table_cls).values(records)
update_columns = {x.name: x for x in insert_stmt.inserted if x.name in update_keys}
upsert_stmt = insert_stmt.on_duplicate_key_update(**update_columns)
db.session.execute(upsert_stmt)

就能够实现整体的 upsert。

察看下面的代码，实际上 upsert 的局部是业务无关的，那么就能够封装一个更不便调用的通用函数了：

from sqlalchemy.dialects.mysql import insert

def upsert(table_cls, records, except_cols_on_update=[]):
    update_keys = [key for key in records[0].keys() if
                   key not in except_cols_on_update]
    insert_stmt = insert(table_cls).values(chunk)
    update_columns = {x.name: x for x in insert_stmt.inserted if x.name in update_keys}
    upsert_stmt = insert_stmt.on_duplicate_key_update(**update_columns)
    db.session.execute(upsert_stmt)

以上的封装，还能够做一些改良：为防止 records 数据集过大，能够分批执行 sql 语句，并通过参数决定是否要提交：

from sqlalchemy.dialects.mysql import insert

def upsert(table_cls, records, chunk_size=10000, commit_on_chunk=True, except_cols_on_update=[]):
    update_keys = [key for key in records[0].keys() if
                   key not in except_cols_on_update]
    for i in range(0, len(records), chunk_size):
        chunk = records[i:i + chunk_size]
        insert_stmt = insert(table_cls).values(chunk)
        update_columns = {x.name: x for x in insert_stmt.inserted if x.name in update_keys}
        upsert_stmt = insert_stmt.on_duplicate_key_update(**update_columns)
        db.session.execute(upsert_stmt)
        if commit_on_chunk:
            db.session.commit()

调用形式如下：

upsert(TableA, records,
                       chunk_size=50000,
                       commit_on_chunk=True,
                       except_cols_on_update=['id', 'a', 'b'])

这时 records 能够数量很大，比方 1 千万条，调用后每 5 万条生成一条 sql 语句，并且执行后就 commit（如果参数 commit_on_chunk = False，那么函数内就始终不提交，能够完结后自行对立提交），update 语句中，防止更新 ‘id’, ‘a’, ‘b’ 这三个字段。

我的语雀原文链接

正文完

python

发表至： python

2022-11-06

0

关于python:Python哪种方式循环最快

关于python:年度盘点Python-的-10-大最佳-IDE你最爱哪一款

关于python:Python-的切片为什么不会索引越界

关于python:最近发现的4个Python命令行可视化库太酷了

关于自动化:金山表单无需API开发集成连接并打通QQ邮箱

关于python:Python-Sqlalchemy-对数据库的批量插入或更新Upsert

根本用法

复用数值

批量解决

封装

分批次生成

Just My Socks（注册教程内含优惠码）

关于python:Python-Sqlalchemy-对数据库的批量插入或更新Upsert

根本用法

复用数值

批量解决

封装

分批次生成

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）