关于安全:用户密码加密存储十问十答一文说透密码安全存储

作者：__程序员赵鑫
原文：https://www.cnblogs.com/xinzh...

咱们数据库的权限治理非常严格，敏感信息开发工程师都看不到，明码明文存储不行吗？

不行。存储在数据库的数据面临很多威逼，有应用程序层面、数据库层面的、操作系统层面的、机房层面的、员工层面的，想做到百分百不被黑客窃取，十分艰难。

如果明码是加密之后再存储，那么即使被拖库，黑客也难以获取用户的明文明码。能够说，明码加密存储是用户账户零碎的底裤，它的重要性，相当于你单独出远门时缝在内衣里钱，尽管你用到他们的概率不大，但关键时刻他们能救命。

那用加密算法比方AES，把明码加密下再存，须要明文的时候我再解密。

不行。这波及到怎么保留用来加密解密的密钥，尽管密钥个别跟用户信息离开存储，且业界也有一些成熟的、基于软件或硬件的密钥存储计划。但跟用户信息的保留一样，想要密钥百分百不泄露，不可能做到。用这种形式加密明码，可能升高黑客获取明文明码的概率。但密钥一旦泄露，用户的明文明码也就泄露了，不是一个好办法。

另外，用户账户零碎不应该保留用户的明文明码，在用户遗记明码的时候，提供重置明码的性能而不是找回明码。

保留所有明码的HASH值，比方MD5。是不是就能够了？

不是所有的HASH算法都能够，精确讲应该是Cryptographic Hash。Cryptographic Hash具备如下几个特点：

给定任意大小任意类型的输出，计算hash十分快；
给定一个hash，没有方法计算得出该hash所对应的输出；
对输出做很小改变，hash就会产生很大变动;
没有方法计算失去两个hash雷同的输出;

尽管不是为加密明码而设计，但其第2、3、4三个个性使得Cryptographic Hash非常适合用来加密用户明码。常见的Cryptographic Hash有MD5、SHA-1、SHA-2、SHA-3/Keccak、BLAKE2。

从1976年开始，业界开始应用Cryptographic Hash加密用户明码，最早见于Unix Crypt。但MD5、SHA-1已被破解，不适宜再用来保留明码。

那我保留用户明码的SHA256值。

不行。黑客能够用查问表或彩虹表来破解用户明码。留神是破解明码不是破解sha256，能依据sha256破解明码的起因是，用户明码往往须要大脑记忆、手工输出，所以不会太简单，往往具备无限的长度、确定的取值空间。

短的取值简略的明码能够用查问表破解

比方8位数字明码，一共只有10^8=100000000种可能。一亿条数据并不算多，黑客能够提前吧0-99999999的sha256都计算好，并以sha256做key明码为value存储为一个查问表，当给定sha256须要破解时，从表中查问即可。

取值绝对简单，且长度较长的明码，能够用彩虹表破解

比方10位，容许数字、字母大小写的明码，一共有(10+26+26)^10~=84亿亿种可能，记录十分之多难以用查问表全副保存起来。这时候黑客会用一种叫做彩虹表的技术来破解，彩虹表用了典型的计算机世界里解决问题的思路，工夫空间斗争。在这个例子外面，空间不够，那就多花一些工夫。在彩虹表中，能够将全副的sha256值转化为长度雷同的若干条hash链，只保留hash链的头和尾，在破解的时候先查问失去sha256存在于哪条hash链中，而后计算这一条hash链上的所有sha256，通过实时比对来破解用户明码。

上图图展现了一个hash链长度为3的彩虹表，因为在hash链中须要将hash值应用R函数映射回明码取值空间，为了升高R函数的抵触概率，长度为K的hash链中，彩虹表会应用k个R函数，因为每次迭代映射回明码空间应用的R函数不一样，这种破解办法被称作彩虹表攻打。

理论的状况Hash链要比远比上例更长，比方咱们的例子中全副的84亿亿个sha256存不下，能够转化为840亿条长度为1千万的sha链。对彩虹表原理感兴趣的话，能够浏览它的维基百科。

网路上甚至有一些曾经计算好的彩虹表能够间接应用，所以间接保留用户明码的sha256是十分不平安的。

怎么防止彩虹表攻打？

简略讲，就是加盐。一般来讲用户明码是个字符串key、盐是咱们生成的字符串salt。原来咱们保留的是key的hash值HASH(key)，当初咱们保留key和salt拼接在一起的hash值HASH(key+salt)。

这样黑客提前计算生成的彩虹表，就全都生效了。

盐应该怎么生成，随机生成一个字符串？

这是个好问题，并不是加个盐就平安了，盐的生成有很多考究。

应用CSPRNG（Cryptographically Secure Pseudo-Random Number Generator）生成盐，而不是一般的随机数算法；

CSPRNG跟一般的随机数生成算法，比方C语言规范库外面的rand()办法，有很大不同。正如它的名字所揭示，CSPRNG是加密平安的，这意味着用它产生的随机数更加随机，且不可预测。常见编程语言都提供了CSPRNG，如下表：

盐不能太短

想想查问表和彩虹表的原理，如果盐很短，那意味着明码+盐组成的字符串的长度和取值空间都无限。黑客齐全能够为明码+盐的所有组合建设彩虹表。

盐不能重复使用

如果所有用户的明码都应用同一个盐进行加密。那么不论盐有多简单、多大的长度，黑客都能够很容易的应用这个固定盐从新建设彩虹表，破解你的所有用户的明码。如果你说，我能够把固定盐存起来，不让他人晓得啊，那么你应该从新读一下我对于为什么应用AES加密不够平安的答复。

即使你为每一个用户生成一个随机盐，安全性依然不够，因为这个盐在用户批改明码时重复使用了。该当在每一次须要保留新的明码时，都生成一个新的盐，并跟加密后的hash值保留在一起。

留神：有些零碎用一个每个用户都不同的字段，uid、手机号、或者别的什么，来作为盐加密明码。这不是一个好主见，这简直违反了下面全副三条盐的生成规定。

那我本人设计一个黑客不晓得的HASH算法，这样你的那些破解办法就都生效了。

不能够。

首先如果你不是一个密码学专家，你很难设计出一个平安的hash算法。不服气的话，你能够再看一遍下面我对于Cryptographic Hash的形容，而后想一想本人怎么设计一个算法能够满足它的全副四种个性。就算你是基于已有的Cryptographic Hash的根底下来设计，设计完之后，也难以保障新算法依然满足Cryptographic Hash的要求。而一旦你的算法不满足平安要求，那么你给了黑客更多更容易破解用户明码的办法。

即使你能设计出一个他人不晓得的Cryptographic Hash算法，你也不能保障黑客永远都不晓得你的算法。黑客往往都有能力拜访你的代码，想想柯克霍夫准则或者香农公里：

明码零碎应该就算被所有人晓得零碎的运作步骤，依然是平安的。

为每一个明码都加上不同的高质量的盐，做HASH，而后保留。这样能够了吧？

以前是能够的，当初不行了。计算机硬件飞速发展，一个古代通用CPU能以每月数百万次的速度计算sha256，而GPU集群计算sha256，更是能够达到每秒10亿次以上。这使得暴力破解明码成为可能，黑客不再依赖查问表或彩虹表，而是应用定制过的硬件和专用算法，间接计算每一种可能，实时破解用户明码。

那怎么办呢？回忆下面对于Cryptographic Hash个性的形容，其中第一条：

给定任意大小任意类型的输出，计算hash十分快

Cryptographic Hash并不是为了加密明码而设计的，它计算十分快的这个个性，在其余利用场景中十分有用，而在当初的计算机硬件条件下，用来加密明码就显得不适合了。针对这一点，明码学家们设计了PBKDF2、BCRYPT、SCRYPT等用来加密明码的Hash算法，称作Password Hash。在他们的算法外部，通常都须要计算Cryptographic Hash很屡次，从而减慢Hash的计算速度，增大黑客暴力破解的老本。能够说Password Hash有一条设计准则，就是计算过程可能按要求变慢，并且不容易被硬件加速。

应该应用哪一种Password Hash？

PBKDF2、BCRYPT、SCRYPT已经是最罕用的三种明码Hash算法，至于哪种算法最好，多年以来明码学家们并无定论。但能够确定的是，这三种算法都不完满，各有毛病。其中PBKDF2因为计算过程须要内存少所以可被GPU/ASIC减速，BCRYPT不反对内存占用调整且容易被FPGA减速，而SCRYPT不反对独自调整内存或计算工夫占用且可能被ASIC减速并有被旁路攻打的可能。

2013年NIST（美国国家标准与技术研究院）邀请了一些明码学家一起，举办了明码hash算法大赛（Password Hashing Competition），意在寻找一种规范的用来加密明码的hash算法，并借此在业界宣传加密存储用户明码的重要性。大赛列出了参赛算法可能面临的攻打伎俩：

[X] 加密算法破解（原值还原、哈希碰撞等，即应满足Cryptographic Hash的第2、3、4条个性）;
[X] 查问表/彩虹表攻打；
[X] CPU优化攻打；
[X] GPU、FPGA、ASIC等专用硬件攻打；
[X] 旁路攻打;

最终在2015年7月，Argon2算法博得了这项比赛，被NIST认定为最好的明码hash算法。不过因为算法过新，目前还没据说哪家大公司在用Argon2做明码加密。

一路问过去好累，能不能给我举个例子，大公司是怎么加密用户明码的？

往年（2016）Dropbox曾产生局部用户明码数据泄露事件，过后其CTO示意他们对本人加密明码的形式很有信念，请用户释怀。随后，Dropbox在其官网技术博客发表名为《How Dropbox securely stores your passwords》的文章，讲述了他们的用户明码加密存储计划。

如上图所示，Dropbox首先对用户明码做了一次sha512哈希将明码转化为64个字节，而后对sha512的后果应用Bcrypt算法（每个用户独立的盐、强度为10）计算，最初应用AES算法和全局惟一的密钥将Bcrypt算法的计算结果加密并保留。博文中，Dropbox形容了这三层加密的起因：

首先应用sha512，将用户明码归一化为64字节hash值。因为两个起因：一个是Bcrypt算对输出敏感，如果用户输出的明码较长，可能导致Bcrypt计算过慢从而影响响应工夫；另一个是有些Bcrypt算法的实现会将长输出间接截断为72字节，从信息论的角度讲，这导致用户信息的熵变小；
而后应用Bcrypt算法。抉择Bcrypt的起因，是Dropbox的工程师对这个算法更相熟调优更有教训，参数抉择的规范，是Dropbox的线上API服务器能够在100ms左右的工夫可计算出后果。另外，对于Bcrypt和Scrypt哪个算法更优，明码学家也没有定论。同时，Dropbox也在关注明码hash算法新秀Argon2，并示意会在适合的机会引入；
最初应用AES加密。因为Bcrypt不是完满的算法，所以Dropbox应用AES和全局密钥进一步升高明码被破解的危险，为了避免密钥泄露，Dropbox采纳了专用的密钥保留硬件。Dropbox还提到了最初应用AES加密的另一个益处，即密钥可定时更换，以升高用户信息/密钥泄露带来的危险。