加密那些事儿

29次阅读

共计 7125 个字符,预计需要花费 18 分钟才能阅读完成。

本文旨在帮助大家分清各种加密方式以及用途原理说明,具体的加密算法分析不在本文的主要探讨之内!

知识路线

graph LR

对称加密 --> 非对称加密
非对称加密 --> 哈希算法
哈希算法 --> 数字签名

引入

背景:不论是前端还是后端开发中,数字签名、信息加密是经常需要使用到的技术,应用场景包括了用户登入、交易、信息通讯、oauth 等等,不同的应用场景也会需要使用到不同的签名加密算法,或者需要搭配不一样的 签名加密算法 来达到业务目标。

漫画:https://cloud.tencent.com/dev…

早在古罗马时期,加密算法就被应用于战争当中。在大规模的战争中,部队之间常常需要信使往来,传递重要的军事情报。

传送情报过程中,容易遭到 中间人攻击 ,怎样防止这种情况的发生呢?古罗马人想出了一种非常朴素的加密方法,被称为 凯撒密码。加密的原理就像下图这样:

  1. 数据加密过程:在对称加密算法中,数据发送方 明文 (原始数据) 和 加密密钥 一起经过特殊 加密处理 ,生成复杂的 加密密文 进行发送。
  2. 数据解密过程:数据接收方 收到密文后,若想读取原数据,则需要使用 加密使用的密钥 及相同算法的 逆算法 对加密的密文进行解密,才能使其恢复成 可读明文

常见的加密算法介绍

常见的加密算法可以大致分为:对称加密算法、非对称加密算法、摘要算法。接下来主要围绕这三种算法进行介绍。

对称加密算法(Symmetric-key algorithm)

常见的 对称加密 算法主要有 DES3DESAES 等

原理

讲解常见的集中算法

AES、DES、3DES、Blowfish、IDEA、RC4、RC5、RC6

常见对称加密算法的原理

  • DES(Data Encryption Standard)

    数字加密算法是 1977 年美国联邦信息处理标准(FIPS)中所采用的一种对称密码。DES 一直以来被美国以及其它国家的政府和银行等广泛使用。DES 运算速度快、资源消耗较少,但是随着计算机计算能力的增强,DES 已经能够在短时间内暴力破解,安全性较低。RSA 公司在 20 世纪末举办过的破译 DES 密钥的比赛数据显示,到 1999 年破译密钥只需要 22 小时 15 分钟。鉴于 DES 已经能够在短时间内被破解,现在除了破解之前的密文,已不再推荐使用。

  • 3DES(Triple Data Encryption Algorithm)

    由于 DES 已经能够在短时间内被破解,为了增加 DES 的强度,将 DES 重复 3 次的用来替代 DES 的分组密码 3DES 被开发出来,也称为 TDEA(Triple Data Encryption Algorithm)。

    但是,3DES 处理速度不高,除了在一些重视向下兼容性的环境中,很少有新的用途,也逐渐被 AES 所取代。

  • AES(Advanced Encryption Standard)

    高级加密标准是取代 DES 标准的一种对称加密算法的新标准,最终在 2000 年从众多候选对称密码算法中选出了 Rijndael 作为 AES。被选为 AES 的密码算法必须满足一定的条件,比如,算法没有弱点、加密以及密钥准备的速度要够快、实现容易、能够在各平台上有效工,同时,还必须无条件地免费供全世界使用。可以说,被选为 AES 的算法近乎“完美”。AES 加解密机制较复杂,综合运用了逐字节替换、平移行、混合列、与轮密钥进行 XOR 等,其优点在运算速度快、资源消耗少,且安全性高。

    前面我们简单介绍了 DES、3DES 和 AES 三种对称密码,DES 已经能够被暴力破解,3DES 也逐渐被 AES 取代。鉴于 AES 在其选定过程中经过了全世界密码专家的严谨验证,一般来说,我们在使用的时候应尽量使用 AES。

优点与缺点

  • 优点:对称加密算法的优点是算法公开、计算量小、加密速度快、加密效率高。
  • 缺点:秘钥的管理和分发非常困难,不够安全。在数据传送前,发送方和接收方必须商定好秘钥,然后双方都必须要保存好秘钥,如果一方的秘钥被泄露,那么加密信息也就不安全了。另外,每对用户每次使用对称加密算法时,都需要使用其他人不知道的唯一秘钥,这会使得收、发双方所拥有的钥匙数量巨大,密钥管理成为双方的负担。

用途与场景

  • 通信过程中的加密
  • 数据库存储的敏感信息加密【一般用于保存用户手机号、身份证等敏感但能解密的信息】

思考

在对称加密中,我们应该如何将密钥安全地发送给接收者?

非对称加密算法

非对称加密算法 ,又称为 公开密钥加密算法 。它需要两个密钥,一个称为 公开密钥 (public key),即 公钥 ,另一个称为 私有密钥 (private key),即 私钥

因为 加密 解密 使用的是两个不同的密钥,所以这种算法称为 非对称加密算法

常见的 非对称算法 主要有 RSADSAECC   等

  1. 如果使用 公钥 对数据 进行加密 ,只有用对应的 私钥 才能 进行解密
  2. 如果使用 私钥 对数据 进行加密 ,只有用对应的 公钥 才能 进行解密

一点历史

1976 年以前,所有的加密方法都是同一种模式:

  1. 甲方选择某一种加密规则,对信息进行加密

2. 乙方使用同一种规则,对信息进行解密

由于加密和解密使用同样规则(简称 ” 密钥 ”),这被称为 ” 对称加密算法 ”(Symmetric-key algorithm)。

这种加密模式有一个最大弱点:甲方必须把加密规则告诉乙方,否则无法解密。保存和传递密钥,就成了最头疼的问题。

1976 年,两位美国计算机学家 Whitfield Diffie 和 Martin Hellman,提出了一种崭新构思,可以在不直接传递密钥的情况下,完成解密。这被称为 ”Diffie-Hellman 密钥交换算法 ”。这个算法启发了其他科学家。人们认识到,加密和解密可以使用不同的规则,只要这两种规则之间存在某种对应关系即可,这样就避免了直接传递密钥。

这种新的加密模式被称为 ” 非对称加密算法 ”。

(1)乙方生成两把密钥(公钥和私钥)。公钥是公开的,任何人都可以获得,私钥则是保密的。

(2)甲方获取乙方的公钥,然后用它对信息加密。

(3)乙方得到加密后的信息,用私钥解密。

如果公钥加密的信息只有私钥解得开,那么只要私钥不泄漏,通信就是安全的。

1977 年,三位数学家 Rivest、Shamir 和 Adleman 设计了一种算法,可以实现非对称加密。这种算法用他们三个人的名字命名,叫做 RSA 算法。从那时直到现在,RSA 算法一直是最广为使用的 ” 非对称加密算法 ”。毫不夸张地说,只要有计算机网络的地方,就有 RSA 算法。

这种算法非常可靠,密钥越长,它就越难破解。根据已经披露的文献,目前被破解的最长 RSA 密钥是 768 个二进制位。也就是说,长度超过 768 位的密钥,还无法破解(至少没人公开宣布)。因此可以认为,1024 位的 RSA 密钥基本安全,2048 位的密钥极其安全。

原理【着重探讨】

非对称加密算法是一种密钥的保密方法。非对称加密算法需要两个密钥:公开密钥(publickey)和私有密钥(privatekey)。公开密钥与私有密钥是一对,如果用公开密钥对数据进行加密,只有用对应的私有密钥才能解密;如果用私有密钥对数据进行加密,那么只有用对应的公开密钥才能解密。因为加密和解密使用的是两个不同的密钥,所以这种算法叫作非对称加密算法。

非对称加密算法实现机密信息交换的基本过程是:甲方生成一对密钥并将其中的一把作为公用密钥向其它方公开;得到该公用密钥的乙方使用该密钥对机密信息进行加密后再发送给甲方;甲方再用自己保存的另一把专用密钥对加密后的信息进行解密。

优点与缺点

  • 优点:安全
  • 缺点:速度较慢

用途与场景

  • 数字签名
  • 加密

既然是加密,那肯定是不希望别人知道我的消息,所以只有我才能解密,所以可得出公钥负责加密,私钥负责解密;

既然是签名,那肯定是不希望有人冒充我发消息,只有我才能发布这个签名,所以可得出私钥负责签名,公钥负责验证。

哈希算法

百度百科:Hash,一般翻译做散列、杂凑,或音译为哈希,是把任意长度的输入(又叫做预映射 pre-image)通过散列算法变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。

散列算法 主要有 SHA-1MD5 等

原理

将任意长度的二进制值映射为较短的固定长度的二进制值,这个短的二进制值称为哈希值,这个算法具有不可逆、碰撞低等特性。同时该类算法可以用作数字签名,用来证实某个信息确实是由某个人发出的,同时可以保证信息没有被修改。

哈希算法简单介绍【是什么、作用】

先举个例子。我们每个活在世上的人,为了能够参与各种社会活动,都需要一个用于识别自己的标志。也许你觉得名字或是身份证就足以代表你这个人,但是这种代表性非常脆弱,因为重名的人很多,身份证也可以伪造。最可靠的办法是把一个人的所有基因序列记录下来用来代表这个人,但显然,这样做并不实际。而指纹看上去是一种不错的选择,虽然一些专业组织仍然可以模拟某个人的指纹,但这种代价实在太高了。

而对于在互联网世界里传送的文件来说,如何标志一个文件的身份同样重要。比如说我们下载一个文件,文件的下载过程中会经过很多网络服务器、路由器的中转,如何保证这个文件就是我们所需要的呢?我们不可能去一一检测这个文件的每个字节,也不能简单地利用文件名、文件大小这些极容易伪装的信息,这时候,我们就需要一种指纹一样的标志来检查文件的可靠性,这种指纹就是我们现在所用的 Hash 算法(也叫散列算法)。

散列算法(Hash Algorithm),又称哈希算法,杂凑算法,是一种从任意文件中创造小的数字「指纹」的方法。与指纹一样,散列算法就是一种以较短的信息来保证文件唯一性的标志,这种标志与文件的每一个字节都相关,而且难以找到逆向规律。因此,当原有文件发生改变时,其标志值也会发生改变,从而告诉文件使用者当前的文件已经不是你所需求的文件。

这种标志有何意义呢?之前文件下载过程就是一个很好的例子,事实上,现在大部分的网络部署和版本控制工具都在使用散列算法来保证文件可靠性。而另一方面,我们在进行文件系统同步、备份等工具时,使用散列算法来标志文件唯一性能帮助我们减少系统开销,这一点在很多云存储服务器中都有应用。

当然,作为一种指纹,散列算法最重要的用途在于给证书、文档、密码等高安全系数的内容添加加密保护。这一方面的用途主要是得益于散列算法的 不可逆性,这种不可逆性体现在,你不仅不可能根据一段通过散列算法得到的指纹来获得原有的文件,也不可能简单地创造一个文件并让它的指纹与一段目标指纹相一致。散列算法的这种不可逆性维持着很多安全框架的运营。

常见的散列算法

  • MD5 算法

    MD5 用的是 哈希函数 ,它的典型应用是对一段信息产生  信息摘要 ,以  防止被篡改 。严格来说,MD5 不是一种  加密算法  而是  摘要算法 。无论是多长的输入,MD5 都会输出长度为 128bits 的一个串 (通常用 16  进制 表示为 32 个字符)。

  • SHA1 算法

    SHA1 是和 MD5 一样流行的 消息摘要算法 ,然而 SHA1MD5 安全性更强 。对于长度小于 2 ^ 64 位的消息,SHA1 会产生一个 160 位的 消息摘要 。基于 MD5SHA1 的信息摘要特性以及 不可逆 (一般而言),可以被应用在检查 文件完整性 以及 数字签名 等场景。

  • HMAC 算法

    HMAC 是密钥相关的 哈希运算消息认证码 (Hash-based Message Authentication Code),HMAC 运算利用 哈希算法 (MD5SHA1 等),以 一个密钥 一个消息 为输入,生成一个 消息摘要 作为 输出

    HMAC 发送方 接收方 都有的 key 进行计算,而没有这把 key 的第三方,则是 无法计算 出正确的 散列值 的,这样就可以 防止数据被篡改

两个特性

  • 不同的输入一定得出不同的 hash 值
  • 无法从 hash 值倒推出原来的输入

用途与场景

  • 保护数据

    散列值可用于唯一地识别机密信息。这需要散列函数是抗碰撞 (collision-resistant) 的,意味着很难找到产生相同散列值的数据。散列函数分类为密码散列函数和可证明的安全散列函数。第二类中的函数最安全,但对于大多数实际目的而言也太慢。透过生成非常大的散列值来部分地实现抗碰撞。例如,SHA- 2 是最广泛使用的密码散列函数之一,它生成 256 比特值。

  • 文件校验

    我们比较熟悉的校验算法有奇偶校验和 CRC 校验,这 2 种校验并没有抗数据篡改的能力,它们一定程度上能检测并纠正数据传输中的信道误码,但却不能防止对数据的恶意破坏。

    MD5 Hash 算法的 ” 数字指纹 ” 特性,使它成为应用最广泛的一种文件完整性校验和 (Checksum) 算法,不少 Unix 系统有提供计算 md5 checksum 的命令。

  • 数字签名

    Hash 算法也是现代密码体系中的一个重要组成部分。由于非对称算法的运算速度较慢,所以在数字签名协议中,单向散列函数扮演了一个重要的角色。对 Hash 值,又称 ” 数字摘要 ” 进行数字签名,在统计上可以认为与对文件本身进行数字签名是等效的。而且这样的协议还有其他的优点。

  • 语音识别

    对于像从一个已知列表中匹配一个 MP3 文件这样的应用,一种可能的方案是使用传统的散列函数——例如 MD5,但是这种方案会对时间平移、CD 读取错误、不同的音频压缩算法或者音量调整的实现机制等情况非常敏感。使用一些类似于 MD5 的方法有利于迅速找到那些严格相同(从音频文件的二进制数据来看)的音频文件,但是要找到全部相同(从音频文件的内容来看)的音频文件就需要使用其他更高级的算法了。

    那些并不紧随 IT 工业潮流的人往往能反其道而行之,对于那些微小差异足够健壮的散列函数确实存在。现存的绝大多数散列算法都是不够健壮的,但是有少数散列算法能够达到辨别从嘈杂房间里的扬声器里播放出来的音乐的健壮性。有一个实际的例子是 Shazam[1] 服务。用户可以用手机打开其 app,并将话筒靠近用于播放音乐的扬声器。该项服务会分析正在播放的音乐,并将它于存储在数据库中的已知的散列值进行比较。用户就能够收到被识别的音乐的曲名。

数字签名

以下摘自阮一峰老师的博客文章《数字签名是什么?》

1.

鲍勃有两把钥匙,一把是公钥,另一把是私钥。

2.

鲍勃把公钥送给他的朋友们 —- 帕蒂、道格、苏珊 —- 每人一把。

3.

苏珊要给鲍勃写一封保密的信。她写完后用鲍勃的公钥加密,就可以达到保密的效果。

4.

鲍勃收信后,用私钥解密,就看到了信件内容。这里要强调的是,只要鲍勃的私钥不泄露,这封信就是安全的,即使落在别人手里,也无法解密。

5.

鲍勃给苏珊回信,决定采用 ” 数字签名 ”。他写完后先用 Hash 函数,生成信件的摘要(digest)。

6.

然后,鲍勃使用私钥,对这个摘要加密,生成 ” 数字签名 ”(signature)。

7.

鲍勃将这个签名,附在信件下面,一起发给苏珊。

8.

苏珊收信后,取下数字签名,用鲍勃的公钥解密,得到信件的摘要。由此证明,这封信确实是鲍勃发出的。

9.

苏珊再对信件本身使用 Hash 函数,将得到的结果,与上一步得到的摘要进行对比。如果两者一致,就证明这封信未被修改过。

10.

复杂的情况出现了。道格想欺骗苏珊,他偷偷使用了苏珊的电脑,用自己的公钥换走了鲍勃的公钥。此时,苏珊实际拥有的是道格的公钥,但是还以为这是鲍勃的公钥。因此,道格就可以冒充鲍勃,用自己的私钥做成 ” 数字签名 ”,写信给苏珊,让苏珊用假的鲍勃公钥进行解密。

11.

后来,苏珊感觉不对劲,发现自己无法确定公钥是否真的属于鲍勃。她想到了一个办法,要求鲍勃去找 ” 证书中心 ”(certificate authority,简称 CA),为公钥做认证。证书中心用自己的私钥,对鲍勃的公钥和一些相关信息一起加密,生成 ” 数字证书 ”(Digital Certificate)。

12.

鲍勃拿到数字证书以后,就可以放心了。以后再给苏珊写信,只要在签名的同时,再附上数字证书就行了。

13.

苏珊收信后,用 CA 的公钥解开数字证书,就可以拿到鲍勃真实的公钥了,然后就能证明 ” 数字签名 ” 是否真的是鲍勃签的。

14.

下面,我们看一个应用 ” 数字证书 ” 的实例:https 协议。这个协议主要用于网页加密。

15.

首先,客户端向服务器发出加密请求。

16.

服务器用自己的私钥加密网页以后,连同本身的数字证书,一起发送给客户端。

17.

客户端(浏览器)的 ” 证书管理器 ”,有 ” 受信任的根证书颁发机构 ” 列表。客户端会根据这张列表,查看解开数字证书的公钥是否在列表之内。

18.

如果数字证书记载的网址,与你正在浏览的网址不一致,就说明这张证书可能被冒用,浏览器会发出警告。

19.

如果这张数字证书不是由受信任的机构颁发的,浏览器会发出另一种警告。

20.

如果数字证书是可靠的,客户端就可以使用证书中的服务器公钥,对信息进行加密,然后与服务器交换加密信息。

技术案例

讲解分析开发中的实际案例技术

  • 文件校验【种子,文件】
  • 用户密码存储,md5,加盐【彩虹表】
  • 登录、jwt、ssh【公钥登录】、单点登录、oauth2
  • 金融支付【alipay、wechat】
  • gmssl 介绍

接下来(建议大家自行了解)

  • 银行的认证
  • 文件加密【加壳】

参考链接

  • Diffie-Hellman 密钥交换算法论文
  • 阮一峰 -RSA 算法原理(一)
  • 阮一峰 -RSA 算法原理(二)
  • 银行密码系统安全吗?质数(素数)到底有啥用?李永乐老师 11 分钟讲 RSA 加密算法(2018 最新)
  • 手机支付中的数字签名是如何保证信息安全的?李永乐老师讲解生日碰撞和哈希函数(2018 最新)
  • 可汗学院公开课:现代密码学
  • 可汗学院 - 密码学之旅
  • 国密算法
  • 阮一峰 - 数字签名是什么?
  • 阮一峰 -JSON Web Token 入门教程
  • 阮一峰 -OAuth 2.0 的一个简单解释
  • 阮一峰 - 理解 OAuth 2.0
  • 阮一峰 -ssh

正文完
 0