关于计算机原理:计算机二进制数表示知识整理

联合 CMU CSAPP 课程和本人看的教材做的笔记。

C 的不同类型数据结构的大小。记住几个罕用的，char 是 1 个 byte，short 是 2 个，int 是 4 个。

C 里的位运算和逻辑运算不要搞混。比方 & 和 &&，& 是按位与，&& 是且运算，位运算的后果仍是一个不同的数值，逻辑运算的后果不是 0 就是 1。

位左移会把高位的移除，低位的补零。

右移有 逻辑右移 和算术右移。

逻辑右移和左移相似，低位移除，高位补 0。算术右移低位移除，高位补的是符号位。

正数示意的思路是，最高位作为符号位，因为当最高位取为 1 的时候，正好能够把这串比特示意的数字范畴拆成两半。比方我打算用 4 个比特示意数字，能够示意 16 个，1000 的十进制是 8，那么在 1000 以下的和 1000 以上的各能示意 8 个数字，就能够别离示意负数和正数了。

如下，16 位示意的无符号数和有符号数的范畴。最大的正数是最高位 1 其余 0，最大的负数是最高位 0 其余 1，所以在负数的最大值再加个 1，溢出的数值就是最大的正数。

上面的公式示意了二进制位的无符号和有符号数的公式。公式就是二进制转十进制的加权求和，留神有符号数，符号位以下的位的权重和无符号数是一样的，只有符号位的权重不一样，带了负号。

C 语言的 <limits.h> 里的宏 ULONG_MAX，LONG_MAX，LONG_MIN 能够取得本机器上符号数的范畴。

常量无非凡申明的状况下默认是 按有符号示意，如果前面加上 U 则是无符号，如 0U，1234U。

C 语言中，显式类型转换就是用显式地写进去的转换操作，比方用了函数，或者 (int)a 这种模式。 隐式类型转换 就是没有显式地写进去，但为了执行命令零碎主动做的转换，常产生在赋值和逻辑比拟中。

比方 int a 和 unsigned int b，令 a = b 就产生了隐式类型转换，b 会被转换成有符号类型，再赋给 a，或者执行 a <b，也会产生隐式转换。

有符号类型和无符号类型混用，无非凡申明的状况下，总是有符号会被转换成无符号。例如，如果 - 1 和 0U 做比拟，后果是 - 1 大于 0U，因为 - 1 的位级示意是全 1，对应的无符号数就最大的负数。所以，当无符号数和有符号数混用时，都是负数没有关系，要小心有符号数是正数的状况。

老师补充了编程中典型的例子。上面是个死循环，因为 i 是无符号的，所以永远会是负数。位级的解释就是 i 最初减小到 0U, 再减去 1 后的 - 1 是全 1，对应的无符号数就是最大负数。

unsigned i;
for(i=n-1;i>=0;i--){func(a[i]);    //do anything
}

再来个坑。如果刚开始把 i 申明成有符号了，然而循环条件这么写：

int i;
for(i=n-1;i-sizeof(char)>=0;i--){func(a[i]);    //do anything
}

结果也是死循环。因为 sizeof 返回的是无符号数，i 和它做运算的后果始终还是无符号数。所以要分外留神隐式转换。

从 k 位的数字拓展到 k + N 位的数字，放弃数值大小不变，只有对符号位拓展就行了。能够本人用之前的加权求和公式计算一下，实际上拓展出的 N 位符号位，和只有 1 位的后果正好是一样的。

因而，C 对短类型转长类型，比方 short 转 int，做的事件就在后面拓展符号位（精确地说有符号数才有符号位，意思晓得了就行）。

而从长位到短位的数据转换，如 uint 转 ushort，会把高位的数据间接截断，在数值上的后果就是做了一次对高位代表的权重的取余。

举个例子，思考无符号数，11011 是 16+8+0+2+1=27，截掉最高位 1，失去 1011，1011=8+0+2+1=11，11 就是 27mod16。

而对于有符号数，截断的过程中正数可能会变正，负数可能会负，要分外留神，如 int 转 short。

计算两个无符号数相加，像十进制那样做进位加法就能够，然而可能会存在最高位有进位的状况，也就是说，两个 N 位的数字相加，最终后果有时须要 N + 1 位保留，然而容量只有 N 位，机器的做法是舍去多进去的一位，只保留 N 位，这就引出了溢出问题。

假如有 4 个 bit 示意无符号整数，能示意的范畴是 0 到 15，如果计算 8 +12，实践上后果是 20，但理论后果是 4，产生了溢出，溢出的法则是： 实践后果 mod/ 舍去位的权重，即 4 =20mod16。

对于有符号整数的情景，如果也用 4 个 bit 示意，能示意的范畴是 - 8 到 +7，如果计算 7 +1，实践后果是 8，理论后果是 0111+0001=1000，这是最大的正数，即 -8，产生了正溢出。如果计算(-8)+(-1)，实践后果是 -9，理论后果是 1000+1111=0111，这是最大的负数，即 7，产生了负溢出。不难发现溢出的法则是，从相同的最大值方向再从新轮次，刚好产生正溢出时会变成最大的正数，反之一样。

乘除的后果是相似的，产生溢出后的理论后果也是相当于做了模操作。

总结一下，产生溢出时做的操作就是高位截断，所以如果计算溢出后的理论后果的值，只有先计算出它的实践后果（二进制示意），而后依据它的数据类型的容量位数去截断高位，保留下来的就是理论后果。

数据左移 k 位就相当于乘以 2 的 k 次幂，这是编程中常见的操作。如 0011=3，左移 1 位就是 0110，正好是 6，再左移一位就是 1100=12。解决 2 的 k 次幂乘积运算时，编译器就会将其优化为左移运算。

如果是做 2 的 k 次幂的除法，也只有右移即可，如果无奈整除，会向下取整。留神对于有符号数，是算术右移，然而本人计算一下理论后果不是向下取整，是向上取整了，所以零碎的做法是先对被除数加一个偏移量 1，而后再做除法，这样最终的后果也是向下取整模式的，放弃了对立。

想得到一个有符号数 x 的相反数 -x，只有对其取反再 +1。其实就是补码的一种疾速计算方法。

指的是字节存储程序，有小端模式和大端模式，目前绝大多数机器应用小端模式，如 x86 的机器，ARM 处理器。

假如有个 4 字节数 0x01234567，直观上看，咱们认为这个数字是从左到右的，也就是说右边是数据的低位，左边是数据的高位，存储时内存地址从低到高也对应数据的从左到右。大端序就是这么存储，然而小端序反了过去，左边的数字会被存储到地址的低位，即 67 存在最低位，01 存在最高位。

浮点数的示意办法借鉴了迷信计数法的思维，迷信计数法是如下的模式：

只须要正负号，小数和指数三个局部就能够示意一个十进制数。同理，二进制数也能够示意成：

S决定正负号，称为 符号位 ，F 决定小数局部，称为 “尾数”，E 决定指数局部，称为“阶码”，或者指数。

如果用 32 位的二进制串示意，能够调配如下的格局：

单精度浮点数，阶码有 8 位。

十进制浮点数转二进制示意的公式，尾数不难理解，要害是了解指数局部的“偏移量”的概念。

其实想对指数局部编码，当然能够沿用补码的模式，假如指数是 -1，就用 1111 1111 示意，-128 就用 1000 0000 示意，+ 1 就用 0000 0001 示意，+127 就用 0111 1111 示意。只不过这样干的话，比拟两个浮点数的大小时不够直观，对于两个规格化的浮点数，符号雷同时，指数大的那个会大一个量级以上，单从数值上看，1000 0000 是比 0000 0001 要大的，但转补码后，实际上前者比后者小。另一方面，纯 0，无穷大等，十分十分靠近 0 的小数等非凡的数字，怎么示意进去？

于是 IEEE 想的方法就是扭转一下映射关系。咱们心愿用一种新的编码方式示意指数局部，叫“阶码”，使得对于指数，原来是正的 a >b，转二进制后仍是 a >b，负的 c >d，转二进制后仍是 c >d，且 a >b>c>d，说白了，像无符号整数那样不扭转递增关系。因而，阶码是不像补码那样有个符号位的，它是这么示意的：

1000 0000 用来示意 +1，向上递增就是正整数，以下的局部就是负整数。这样正好把示意范畴拆成两半。察看这个二进制示意，和 + 1 本来的补码 0000 0001 相差多少？相差 127（0111 1111），即 0000 0001 + 0111 1111 = 1000 0000。就是说——

阶码 = 补码 + 127

一旦建设这个新的映射关系，从负到正的大小关系就能够示意成相似无符号数的模式了。那么，计算一下，- 1 的阶码是 1111 1111（补码）+ 0111 1111（偏移量）= 0111 1110，0 的阶码是紧随当前的 0111 1111。那么全 0 用来示意什么了？

全 0 拿去编码非凡数字了，即浮点数纯 0 和非规格化数。当阶码为 0000 0000，尾数也为 0 时，示意浮点数 0，尾数不为 0 时，示意非规格化数。

另外，全 1 也拿去编码非凡数字了，即无穷大。当阶码为 1111 1111，符号位为正时，就示意正无穷，符号位为负时，就示意负无穷。

所以阶码的编码方式就是：

非凡数字：0000 0000（0 或非规格化数），1111 1111（无穷大）
负指数：0000 0001 ~ 0111 1110 (示意 -126~-1)
指数为 0：0111 1111
正指数：1000 0000 ~ 1111 1110 (示意 +1~+127)

以上都是单精度的例子，对于双精度也一样。

双精度的阶码长度为 11，+ 1 的阶码示意当然仍是最高位为 1，即 100 0000 0000，和本来的补码示意 000 0000 0001（也拓展到 11 位），相差的偏移就是 011 1111 1111，即 1023。能够看进去了，如果阶码有 k 位，偏移量就是 2^(k-1)-1。

关于计算机原理:计算机二进制数表示知识整理

数据类型大小

左移和右移

补码（符号数示意）

类型转换

拓展和截断

整数加减法，溢出

幂

相反数

小端 & 大端

浮点数