共计 1668 个字符,预计需要花费 5 分钟才能阅读完成。
温故而知新
常识这个货色,看来真的要温故而知新,始终不必,都要遗记了。
业务很简略:须要批量插入一些数据,数据起源可能是其余数据库的表,也可能是一个内部 excel 的导入。
那么问题来了,是不是每次插入之前都要查一遍,看看重不反复,在代码里筛选一下数据,反复的就过滤掉呢?
向大数据数据库中插入值时,还要判断插入是否反复,而后插入。如何提高效率?
看来这个问题不止我一个人苦恼过。
解决的方法有很多种,不同的场景解决方案也不一样,数据量很小的状况下,怎么搞都行,然而数据量很大的时候,这就不是一个简略的问题了。
几百万的数据,不可能查出来去重解决!
说一下我 Google 到的解决方案。
1、insert ignore into
当插入数据时,如呈现谬误时,如反复数据,将不返回谬误,只以正告模式返回。所以应用 ignore 请确保语句自身没有问题,否则也会被疏忽掉。例如:
INSERT IGNORE INTO user (name) VALUES ('telami')
这种办法很简便,然而有一种可能,就是插入不是因为反复数据报错,而是因为其余起因报错的,也同样被忽略了~
2、on duplicate key update
当 primary 或者 unique 反复时,则执行 update 语句,如 update 后为无用语句,如 id=id,则同 1 性能雷同,但谬误不会被疏忽掉。
例如,为了实现 name 反复的数据插入不报错,可应用一下语句:
INSERT INTO user (name) VALUES ('telami') ON duplicate KEY UPDATE id = id
这种办法有个前提条件,就是,须要插入的束缚,须要是主键或者惟一束缚(在你的业务中那个要作为惟一的判断就将那个字段设置为惟一束缚也就是 unique key)。
3、insert … select … where not exist
依据 select 的条件判断是否插入,能够不光通过 primary 和 unique 来判断,也可通过其它条件。例如:
INSERT INTO user (name) SELECT 'telami' FROM dual WHERE NOT EXISTS (SELECT id FROM user WHERE id = 1)
这种办法其实就是应用了 mysql 的一个长期表的形式,然而外面应用到了子查问,效率也会有一点点影响,如果能应用下面的就不应用这个。
4、replace into
如果存在 primary or unique 雷同的记录,则先删除掉。再插入新记录。
REPLACE INTO user SELECT 1, 'telami' FROM books
这种办法就是不论原来有没有雷同的记录,都会先删除掉而后再插入。另外,关注公众号 Java 技术栈,在后盾回复:面试,能够获取我整顿的 MySQL 面试题和答案。
实际
抉择的是第二种形式
<insert id="batchSaveUser" parameterType="list">
insert into user (id,username,mobile_number)
values
<foreach collection="list" item="item" index="index" separator=",">
(#{item.id},
#{item.username},
#{item.mobileNumber}
)
</foreach>
ON duplicate KEY UPDATE id = id
</insert>
这里用的是 Mybatis,批量插入的一个操作,mobile_number 曾经加了惟一束缚。这样在批量插入时,如果存在手机号雷同的话,是不会再插入了的。
作者:telami\
起源:https://www.telami.cn/
近期热文举荐:
1.600+ 道 Java 面试题及答案整顿 (2021 最新版)
2. 终于靠开源我的项目弄到 IntelliJ IDEA 激活码了,真香!
3. 阿里 Mock 工具正式开源,干掉市面上所有 Mock 工具!
4.Spring Cloud 2020.0.0 正式公布,全新颠覆性版本!
5.《Java 开发手册(嵩山版)》最新公布,速速下载!
感觉不错,别忘了顺手点赞 + 转发哦!