深入理解计算机系统cp1存储单位与编码

44次阅读

共计 2264 个字符,预计需要花费 6 分钟才能阅读完成。

摘要: 理解计算机是如何存储数据的。

  • 原文:深入理解计算机系统 cp1:存储单位与编码
  • 作者:Chor

Fundebug 经授权转载,版权归原作者所有。

1. 存储单位

  • 位:即 bit,表示二进制位,要么是 0,要么是 1。它是计算机内部数据存储的最小单位。比如 11010100 共有 8 个二进制位,是一个 8 位二进制数。
  • 字节:即 byte,它由 8 个二进制位构成,即 1byte=8bit,是计算机内部计量的基本单位。一个英文字符占 1 个字节(8 位),一个汉字占 2 个字节(16 位)
  • 字:即 word,它由若干个字节构成,是计算机内部进行数据处理和运算的基本单位。字的总的位数称为字长,不同档次的计算机字长是不一样的,比如 32 位机,它的 1 个字由 4 个字节构成,字长为 32 位,也就是说其 CPU 一次操作处理的实际位数是 32 位。同理,64 位机可以处理 64 位。由此可见,计算机的字长越大,其性能越优越。
  • KB,MB:1024byte = 1KB,1024KB = 1MB。往上还有 GB,TB。

PS:数据传输大多以 bit 为单位,比如我们常说的网速 100M/s,M/ s 其实 Mbit/s,也就是兆比特每秒,我们还可以写成 100Mbps。

2. 编码

2.1 为什么需要编码?

  • 计算机只能理解 0 和 1,无法理解英文、字母、汉字和其他特殊字符,这些字符需要经过编码才能成为计算机可以理解的二进制数。
  • 由字符到二进制数称为编码,反过来则是解码。
  • 从字符到二进制数,需要有一个一一对应的映射,这个映射通过编码规则来实现。
  • 通常所说的编码其实包括编码 + 字符集(即字符的集合体),比如 Unicode 字符集,就有 UTF-8,UTF-16 等多种编码。

2.2 编码规则的演变

  • ASCII:

    1) /ˈæski/,即 American Standard Code for Information Interchange,美国信息交换标准代码。本来一个字节有 8 位,每一位有 0 和 1 两种状态,则一个字节共有 2^8=256 种状态,可以表示 256 种字符。但是美国佬比较自私,觉得只要可以表示自己的字母和一些特殊字符就足够了,所以 ASCII 没有占用最高位(而是固定为 0),实际只用到了后面 7 位,它可以表示 2^7=128 种状态,也就是表示 128 个字符。

    2) 很显然,这用来表示字母是足够的,但要想表示其它语言的字符,128 还是太少了。

    PS:附送 ASCII 对照表一张:

  • GB2312:

    1) 既然美国佬只解决了字母和特殊符号的编码问题,那么我们中国人只好实现自己的编码,从而来表示汉字了。所以这时候出现了 GB2312 编码(国标码)。

    2) 问题:不幸的是,各个国家都是这么想的,所以小日本有了 Shift_JIS 编码,棒子有了 Euc-kr 编码….. 一时之间各国都有了自己的标准,那么对于一个多语言混合的文本来说,存在着不同的编码规则,最终必然导致乱码。

  • Unicode:

    1) Unicode 解决了编码统一的问题。每种语言的每个字符在 Unicode 的规则下,都只有统一且唯一的对应二进制编码。它的表示方法是 U+[16 进制数]。例如,大写字母 A 编码为 U+0041,汉字“严”编码为 U+4E25

    2) 问题:Unicode 一般用 2 个字节(也就是 16 位)表示一个字符,这在表示 ASCII 字符的时候会出现问题。我们知道,ASCII 字符实际只需要一个字节就够了,并且最高位甚至都还不需要用到,但是 Unicode 又规定表示一个字符至少需要 2 个字节,那么一个 ASCII 字符前面就必须要补 0 以满足这个规则,例如字母 A 就需要用 00000000 01000001 表示,这些多余的 0 是一个极大的资源浪费。

  • UTF-8:

    1) UTF:实际传输过程中,基于不同的系统平台,对 Unicode 会有不不同的实现方式,其实现方式称为 Unicode Transformation Format,即 UTF。

    2) 作为 Unicode 的一种实现方式,UTF-8 展现了一定的灵活性——它是一种变长编码,会根据具体字符来改变所需要的表示字节。其编码规则只有两条:

    i>. 对于 128 个 ASCII 字符只需一个字节表示,字节的第一位补 0,后面 7 位为这个字符的 ASCII 二进制数。Unicode 范围为 U+0000 至 U +007F。

    ii>. 对于 n 字节的符号(n>1),第一个字节的前 n 位都设为 1,第 n+1 位设为 0,后面字节的前两位一律设为 10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码二进制数。Unicode 范围由 U+0080 起。

也可以看下面这张图:

以汉字“严”为例,演示如何实现 UTF-8 编码。

“严”的 Unicode 是 U+4E25(二进制数 100111000100101),据表,U+4E25 处在第三行的范围内(U+0800 ~ U+FFFF),因此“严”的 UTF-8 编码需要三个字节,即格式 1110xxxx 10xxxxxx 10xxxxxx。然后,从“严”的最后一个二进制位开始,依次从后向前填入格式中的 x,多出的位补 0。这样就得到 UTF-8 编码(二进制)是 11100100 10111000 10100101,转换成十六进制就是 E4B8A5

参考:

  • 基础:ASCII,Unicode 和 UTF-8
  • 字符串和编码

关于 Fundebug

Fundebug 专注于 JavaScript、微信小程序、微信小游戏、支付宝小程序、React Native、Node.js 和 Java 线上应用实时 BUG 监控。自从 2016 年双十一正式上线,Fundebug 累计处理了 20 亿 + 错误事件,付费客户有阳光保险、核桃编程、荔枝 FM、掌门 1 对 1、微脉、青团社等众多品牌企业。欢迎大家免费试用!

正文完
 0