字符串与编码

16次阅读

共计 502 个字符,预计需要花费 2 分钟才能阅读完成。

(1)ASCII 码

  • 一个字节表示的英文、数字、标点符号等字符。
  • 国际标准 ASCII 码为 0 -127 即 128 个字符,二进制最高位为 0,其余为扩展 ASCII 码。

(2)GB2312

  • 两字节,主要包含简体的常用中文及符号的字符集编码。

(3)GBK

  • 单双字节变长编码,主要包含简体与繁体中文和一些符号、偏旁部首的字符集编码。

(4)GB18030

  • GBK 编码无法满足需求扩展,多出来的部分使用四字节编码,即单、双、四字节编码;
  • 扩展了汉字,还包括了少数民族文字;

(5)Unicode

  • 因各国语言、字符差异,Unicode 将所有字符统一为一套字符集。
  • UTF-8、UTF-16、UTF-32 是对 Unicode 字符集的不同编码方案。

(6)UTF-8

  • 变长编码方式,1- 4 字节表示一个字符,可节省存储空间;
  • 英文 1 字节,中文一般 3 字节,最多 4 字节;

编码规则:

  • 》单字节:同标准 ASCII 码,最高位为 0,0-127 表示 128 个字符
  • 》多字节:n 字节,高位到低位,第一字节前 n 位为 1,第 n + 1 位为 0;后面字节前两位为 10; 剩余位由低位向高位填补 Unicode 吗,多出补 0;
    110XXXXX 10XXXXXX

    1110XXXX 10XXXXXX 10XXXXXX

正文完
 0