共计 2321 个字符,预计需要花费 6 分钟才能阅读完成。
前言
数据库优化一方面是找出系统的瓶颈, 提高 MySQL 数据库的整体性能, 而另一方面需要合理的结构设计和参数调整, 以提高用户的相应速度, 同时还要尽可能的节约系统资源, 以便让系统提供更大的负荷.
1. 优化一览图
2. 优化
笔者将优化分为了两大类, 软优化和硬优化, 软优化一般是操作数据库即可, 而硬优化则是操作服务器硬件及参数设置.
2.1 软优化
2.1.1 查询语句优化
1. 首先我们可以用 EXPLAIN 或 DESCRIBE(简写:DESC) 命令分析一条查询语句的执行信息.2. 例:
DESC SELECT * FROM `user`
显示:
其中会显示索引和查询数据读取数据条数等信息.
2.1.2 优化子查询
在 MySQL 中, 尽量使用 JOIN 来代替子查询. 因为子查询需要嵌套查询, 嵌套查询时会建立一张临时表, 临时表的建立和删除都会有较大的系统开销, 而连接查询不会创建临时表, 因此效率比嵌套子查询高.
2.1.3 使用索引
索引是提高数据库查询速度最重要的方法之一, 关于索引可以参高笔者 <MySQL 数据库索引 > 一文, 介绍比较详细, 此处记录使用索引的三大注意事项:
LIKE 关键字匹配 ’%’ 开头的字符串, 不会使用索引.
OR 关键字的两个字段必须都是用了索引, 该查询才会使用索引.
使用多列索引必须满足最左匹配.
2.1.4 分解表
对于字段较多的表, 如果某些字段使用频率较低, 此时应当, 将其分离出来从而形成新的表,
2.1.5 中间表
对于将大量连接查询的表可以创建中间表, 从而减少在查询时造成的连接耗时.
2.1.6 增加冗余字段
类似于创建中间表, 增加冗余也是为了减少连接查询.
2.1.7 分析表,, 检查表, 优化表
分析表主要是分析表中关键字的分布, 检查表主要是检查表中是否存在错误, 优化表主要是消除删除或更新造成的表空间浪费.
分析表: 使用 ANALYZE 关键字, 如 ANALYZE TABLE user;
Op: 表示执行的操作.
Msg_type: 信息类型, 有 status,info,note,warning,error.
Msg_text: 显示信息.
检查表: 使用 CHECK 关键字, 如 CHECK TABLE user [option]
option 只对 MyISAM 有效, 共五个参数值:
QUICK: 不扫描行, 不检查错误的连接.
FAST: 只检查没有正确关闭的表.
CHANGED: 只检查上次检查后被更改的表和没被正确关闭的表.
MEDIUM: 扫描行, 以验证被删除的连接是有效的, 也可以计算各行关键字校验和.
EXTENDED: 最全面的的检查, 对每行关键字全面查找.
优化表: 使用 OPTIMIZE 关键字, 如 OPTIMIZE [LOCAL|NO_WRITE_TO_BINLOG] TABLE user;
LOCAL|NO_WRITE_TO_BINLOG 都是表示不写入日志., 优化表只对 VARCHAR,BLOB 和 TEXT 有效, 通过 OPTIMIZE TABLE 语句可以消除文件碎片, 在执行过程中会加上只读锁.
2.2 硬优化
2.2.1 硬件三件套
1. 配置多核心和频率高的 cpu, 多核心可以执行多个线程.2. 配置大内存, 提高内存, 即可提高缓存区容量, 因此能减少磁盘 I / O 时间, 从而提高响应速度.3. 配置高速磁盘或合理分布磁盘: 高速磁盘提高 I /O, 分布磁盘能提高并行操作的能力.
2.2.2 优化数据库参数
优化数据库参数可以提高资源利用率, 从而提高 MySQL 服务器性能.MySQL 服务的配置参数都在 my.cnf 或 my.ini, 下面列出性能影响较大的几个参数.
key_buffer_size: 索引缓冲区大小
table_cache: 能同时打开表的个数
query_cache_size 和 query_cache_type: 前者是查询缓冲区大小, 后者是前面参数的开关,0 表示不使用缓冲区,1 表示使用缓冲区, 但可以在查询中使用 SQL_NO_CACHE 表示不要使用缓冲区,2 表示在查询中明确指出使用缓冲区才用缓冲区, 即 SQL_CACHE.
sort_buffer_size: 排序缓冲区
传送门: 更多参数
2.2.3 分库分表
因为数据库压力过大,首先一个问题就是高峰期系统性能可能会降低,因为数据库负载过高对性能会有影响。另外一个,压力过大把你的数据库给搞挂了怎么办?所以此时你必须得对系统做分库分表 + 读写分离,也就是把一个库拆分为多个库,部署在多个数据库服务上,这时作为主库承载写入请求。然后每个主库都挂载至少一个从库,由从库来承载读请求。
2.2.4 缓存集群
如果用户量越来越大,此时你可以不停的加机器,比如说系统层面不停加机器,就可以承载更高的并发请求。然后数据库层面如果写入并发越来越高,就扩容加数据库服务器,通过分库分表是可以支持扩容机器的,如果数据库层面的读并发越来越高,就扩容加更多的从库。但是这里有一个很大的问题:数据库其实本身不是用来承载高并发请求的,所以通常来说,数据库单机每秒承载的并发就在几千的数量级,而且数据库使用的机器都是比较高配置,比较昂贵的机器,成本很高。如果你就是简单的不停的加机器,其实是不对的。所以在高并发架构里通常都有缓存这个环节,缓存系统的设计就是为了承载高并发而生。所以单机承载的并发量都在每秒几万,甚至每秒数十万,对高并发的承载能力比数据库系统要高出一到两个数量级。所以你完全可以根据系统的业务特性,对那种写少读多的请求,引入缓存集群。具体来说,就是在写数据库的时候同时写一份数据到缓存集群里,然后用缓存集群来承载大部分的读请求。这样的话,通过缓存集群,就可以用更少的机器资源承载更高的并发。
结语
一个完整而复杂的高并发系统架构中,一定会包含:各种复杂的自研基础架构系统。各种精妙的架构设计. 因此一篇小文顶多具有抛砖引玉的效果, 但是数据库优化的思想差不多就这些了.