使用缓存可以缓解大流量压力,显著提高程序的性能。我们在使用缓存系统时,尤其是大并发情况下,经常会遇到一些“疑难杂症”。本文总结了一些使用缓存时常见的问题及解决方案,以后在遇到这类问题时可以作为参考,在设计缓存系统的时候也应该考虑这些常见的情况。
为了表述方便,本文以数据库查询缓存为例,使用缓存可以减小对数据库的压力。
缓存穿透
我们在使用缓存时,往往先尝试去缓存中取值,如果没有,再去数据库取值,如果数据库也没有值,则根据业务需求,返回空或者抛异常。
如果用户一直访问一个数据库不存在的数据,比如 id 为 - 1 的数据,就会导致每次请求都会先去缓存查一次,然后再去数据库查一次,造成严重的性能问题。这种情况就叫缓存穿透。
解决方案
以下几种解决方案:
- 对请求参数做校验,比如用户鉴权校验,id 做基础校验,id <= 0 的直接拦截。
- 如果查询到数据库没有值,也将对应的 key 存进缓存中,value 为 null。这样下次查询就直接从缓存返回了。但这里的 key 的缓存时间应该比较短,比如 30s。防止后面在数据库插入了这条数据,而用户获取不到。
- 使用布隆过滤器,判断一个 key 是否已经查过了,如果已经查过了,就不去数据库查询。
缓存击穿
缓存击穿指的是,一个 key 的访问量非常大,比如某秒杀活动,有 1w/ s 的并发量。这个 key 在某一时刻过期,那这些大量的请求就会一瞬间到数据库,数据库可能会直接崩溃。
解决方案
缓存击穿的解决方案也有几种,可以配合使用:
- 对于热点数据,慎重考虑过期时间,确保热点期间 key 不会过期,甚至有些可以设置永不过期。
- 使用互斥锁(比如 Java 的多线程锁机制,PHP 的 flock),第一个线程访问 key 的时候就锁住,等查询数据库返回后,把值插入到缓存后再释放锁,这样后面的请求就可以直接取缓存里面的数据了。
缓存雪崩
缓存雪崩指的是,在某一时刻,多个 key 失效。这样就会有大量的请求从缓存中获取不到值,全部到数据库。还有另一种情况,就是缓存服务器宕机,也算做缓存雪崩。
解决方案
针对上述两种情况,缓存雪崩有两种解决方案:
- 对每个 key 的过期时间设置一个随机值,而不是所有 key 都相同。
- 使用高可用的分布式缓存集群,确保缓存的高可用性,比如 redis-cluster。
双写不一致
在使用数据库缓存的时候,读和写的流程往往是这样的:
- 读取的时候,先读取缓存,如果缓存中没有,就直接从数据库中读取,然后取出数据后放入缓存
- 更新的时候,先删除缓存,再更新数据库
所谓双写不一致,就是在发生写操作 (更新) 的时候或写操作之后,可能会存在数据库里面的值和缓存中的值不同的情况。
为什么更新的时候要先删除缓存,再更新数据库? 因为如果先更新数据库,然后在删除缓存的时候失败了,就会造成缓存里面的值和数据库的值不一致。
然而这样并不能完全避免双写不一致问题。假设在大并发情景下,一个线程先删除缓存,然后取更新数据库,这个时候另一个线程去取缓存,发现没有值,于是去读数据库,然后把数据库旧的值设置进缓存。等第一个线程更新完数据库后,数据库里面就是新的值,而缓存里面是旧的值,所以就存在了数据不一致的问题。
一个比较简单的解决办法是把过期时间设置得比较低,这样就只有在缓存没过期之前存在数据不一致问题,在一些业务场景下也还能接受。
另一种解决方案是使用队列辅助。先更新数据库,再删除缓存。如果删除失败,就放进队列。然后另一个任务从队列中取出消息,不断去重试删除相应的 key。
还有一种解决方案是使用对一个数据使用一个队列,使读写操作串行化。比如对 id 为 n 的数据建立一个队列。对这条数据的写操作,删除缓存后,放进一个队列; 然后另一个线程过来了,发现没有缓存,则把这个读操作也放进这个队列里面。
不过这样会增加程序的复杂性,串行化也会降低程序的吞吐量,可能得不偿失。一般主流的解决方案还是先删除缓存,再更新数据库。可以满足绝大部分需求。