背景
个别波及到数据传输,思考到业务方间接通过字符串传过来时会被过滤特殊字符等状况,对数据的编码必不可少。数据编码形式最罕用的应该是 Base64。Base64 编码实质上是一种将二进制数据转换成文本数据的计划。上面会具体介绍它的原理,实现以及一些利用场景。
<!–more–>
编码原理
Base64 编码是基于 64 个字符 A-Z,a-z,0-9,+,/
的编码方式,因为 2 的 6 次方正好为 64,所以就用 6bit 就能够示意出 64 个字符,比方 000000 对应 A,000001 对应 B。
流程
- 按字符串长度,以每 3 个字符(1Byte= 8Bit)为一组
- 针对每一组,对每个字符的 ASCII 编码 转换为 8Bit 的二进制,失去一组 3*8 = 24Bit 的字节
- 对 24Bit 划分成 4 个 6Bit 的字节,在每个 6Bit 的字节后面都填两个高位 0,失去 4 个 8Bit 的字节
- 把 4 个 8Bit 字节转换成十进制,对照 BASE64 编码表,失去对应编码后的字符。
留神
- 要求被编码字符是 8bit 的,所以须在 ASCII 编码范畴内,u0000-u00ff,不容许中文。
- 如果被编码字符长度不是 3 的倍数,则用 0 代替,对应的输入字符为 “=”
Base64 编码实质上是将二进制数据 转成 文本数据。对于非二进制数据,是转换成二进制模式,而后每间断 6 比特(2^6 =64)计算其十进制值,依据该值在 A--Z,a--z,0--9,+,/
这 64 个字符集中找对应的字符,串起来失去一个文本字符串
根本规定
- 规范 Base64 只有 64 个字符:
A--Z,a--z,0--9,+,/,=
- Base64 把 3 个字节变成 4 个可打印字符,所以 Base64 编码后的字符串肯定能被 4 整除 (排查用作后缀的等号)
- 等号肯定用作后缀,且数目肯定是 0 个、1 个或 2 个。这是因为如果原文长度不能被 3 整除。Base64 要在前面增加 0 凑齐 3n 位。为了正确还原,增加了几个 0 就加上几个等号。显然增加等号的数目只能是 0、1 或 2
- Base64 只是一种编码,不是加密计划
实现
-
对字符串进行 Base64 编码:
func Base64Encoding() {input := []byte("Herbert Lu") // Encoding using Base64 encodeString := base64.StdEncoding.EncodeToString(input) fmt.Println(encodeString) // Base64 decoding of encoding results decodeBytes, err := base64.StdEncoding.DecodeString(encodeString) if err != nil {fmt.Println("decode input string fail:", err) return } fmt.Println(string(decodeBytes)) }
-
在 URL 中对字符串进行 Base64 编码:
func Base64URLEncoding() { // Using Base64 in URL Encoding uEnc := base64.URLEncoding.EncodeToString([]byte(input)) fmt.Println(uEnc) uDec, err := base64.URLEncoding.DecodeString(uEnc) if err != nil {log.Fatalln(err) } fmt.Println(string(uDec)) }
利用
- 简略的加密。比方把一些信息简略地用 Base64 解决,避免被明文查看。
- 数据传输,用于内容在各个网络节点间传输,且不丢数据。计算机中任何数据都是按 ASCII 码存储,而 ASCII 码的 128~255 之间值是不可见字符。而在网络上替换数据时,比如说从 A 地传到 B 地,往往要通过多个路由设施,因为不同的设施对字符的解决形式有一些不同,这样那些不可见字符就有可能被处理错误,造成数据失落或传输失败。先把数据进行 Base64 编码,转换成可见字符后出错的可能性就大大降低
小结
Base64 作为常见的编码伎俩,对软件工程师来说也是一项必知必会的技能,所以把握它的实现原理和晓得它的利用场景,对工作是十分有帮忙的。
参考
- Base64 的原理