关于url:简述字符集与编码

因为计算机外部只能辨认和解决二进制代码，所以字符都必须依照肯定的规定用一组二进制编码来示意。

在学习编码之前，须要先理解一下 字符集与编码的关系：
字符集 (Character Set) 是字符的汇合，定义零碎能解决哪些字符；编码 (Encoding) 则规定这些字符在计算机外部的示意形式。

目前，国内上广泛采纳的一种字符零碎是 7 位二进制编码的 ASCII 码，它可示意 10 个十进制数码、52 个英文大写字母和小写字母 (A~Z, a~z) 及肯定数量的专用符号(如 $、%、+、= 等)，共 128 个字符。为了存入计算机，通常最高位补 0，凑足 1B。

在 ASCII 码中，编码值 0~31 为控制字符，用于通信管制或设施的性能管制；编码值 32~126 共 95 个字符称为可印刷字符；编码值 127 是 DEL 码。

0~9 的 ASCII 码值为 48(0110000)~57(0111001)，即去掉高 3 位，只保留低 4 位，正好是二进制模式的 0 -9。

因为 ASCII 码的局限性，各国的语言不能残缺地示意进去。于是对 ASCII 字符集做了拓展。

目前采纳 GB 2312-80 规范 : 汉字 + 各种符号共 7445 个。用两个字节示意一个汉字，每字节用七位码。（1 个汉字相当于两个英文字符）

规定：ASCII 值小于 127 的字符的意义与原来 ASCII 集中的字符雷同，但当两个 ASCII 值大于 127 的字符连在一起时，就示意一个简体中文的汉字。

为了在解码时操作的对立，在 ASCII 里原本就有的数字、标点、字母都对立从新示意为了两个字节长的编码，这就是常说的“全角”字符，而原来在 127 号以下的就叫“半角”字符。

输出编码
- 区位码
- 国标码
汉字内码
汉字字形码

区位码：94 个区，每区 94 个地位。是 4 位十进制数，前 2 位是区码，后 2 位是位码。
国标码：将十进制的区位码转换成十六进制数后，再在每字节上加上 20H。国标码两字节的最高位都是 0。
汉字内码：为了不便计算机辨别中文字符和英文字符，将国标码两字节最高位都改为“1“，这就是汉字内码。

GBK 是对 GB2312 的一个扩大，兼容 GB2312，因而也兼容 ASCII，也是一个变长编码方案。上面是一个简介：

GBK 总体编码范畴为 8140-FEFE，首字节在 81-FE 之间，尾字节在 40-FE 之间，总计 23940 个码位，共支出 21886 个汉字和图形符号，其中汉字（包含部首和构件）21003 个，图形符号 883 个。

GBK 是国家有关部门与一些信息行业企业等一起单干推出的计划，但并未作为国家标准公布，只是一个事实上的规范，一个过渡计划，为 GB18030 规范作的一个筹备。

世界上各国都有不同的编码方式，0—127 示意的符号仍然都是一样的，因为他们都兼容 ASCII 码，但 127 之后的同一个二进制数字能够被解码成不同的符号。因而，要想关上一个文本文件，就必须晓得它的编码方式，否则用谬误的编码方式解读，就会呈现乱码。

把所有语言都对立到一套编码里，且兼容 ASCII。

ASCII、GBK 等类编码模式的字符集和编码方式都是一一对应的，Unicode 是字符集，UTF-32/ UTF-16/ UTF- 8 是三种字符编码方案。

整个编码可分为两个过程。首先，将程序中的字符依据字符集中的编号数字化为某个特定的数值，而后依据编号以特定的形式存储到计算机中。

编号就相当于 ASCII 码中的 ASCII 值，它就是 Unicode 字符集中惟一示意某个字符的标识，在 Unicode 也称作 码点（Code Point）。

码点转换成各种编码，又波及到编码过程中定长与变长两种实现形式，UTF-32 就属于定长编码，即永远用 4 字节存储码点，而 UTF-8、UTF-16 就属于变长存储，UTF-8 依据不同的状况应用 1-4 字节，而 UTF-16 应用 2 或 4 字节来存储码点。

在 UTF-32 这种定长的编码方式下就示意每 4 个子节一个断句，那么字符 A 的码点 U+0041（二进制为 1000001）被 UTF-32 编码后就会变成如下模式存储在计算机中：

00000000 00000000 00000000 01000001

它会将 4 个字节中空出的高位全副填充为 0。这种示意的最大毛病是占用空间太大，因为不论都大的码点都须要四个字节来存储，十分的占空间，那么如何冲破这个瓶颈呢？变长计划应运而生。

UTF-8 属于变长的编码方式，它能够应用 1~4 个字节示意一个符号，依据不同的符号而变动字节长度。应用的是 高位保留 的形式来区别不同变长，具体形式如下：

对于单字节的符号，字节的第一位设为0，前面 7 位为这个符号的 Unicode 码。因而对于英语字母，UTF-8 编码和 ASCII 码是雷同的。
对于 n 字节的符号（n > 1），第一个字节的前 n 位都设为 1，第n + 1 位设为0，前面字节的前两位一律设为10。剩下的没有提及的二进制位，全副为这个符号的 Unicode 码。

Unicode 符号范畴 | UTF- 8 编码方式

(十六进制)	（二进制）
0000 0000-0000 007F	0xxxxxxx
0000 0080-0000 07FF	110xxxxx 10xxxxxx
0000 0800-0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

解码 UTF-8 编码也很简略了，如果一个字节的第一位是 0，则这个字节独自就是一个字符；如果第一位是1，则间断有多少个 1，就示意以后字符占用多少个字节，”丑”有三个 1 示意占三个字符，而后取出无效位即可。

Unicode 为 Emoji 调配码点。Emoji 符号就是一个文字，它会被渲染为图形。

Emoji 编码

以上三种都是属于文字的编码，但在计算机中，还有相似图片这种媒体资源。因为图片的二进制编码中蕴含有很多不可见字符，无奈用文本展现。

base64 编码是用来解决把不可打印的内容塞进可打印内容的需要的。比方把图片存到数据库，图片数据归根到底还是一堆二进制串，用 base64 编码后的显示成的字符串就大大放大的长度，能够存到数据库。

所谓 Base64，就是: 小写字母 a -z、大写字母 A -Z、数字 0 -9、符号 ”+”、”/”（再加上作为垫字的 ”=”，实际上是 65 个字符）—- 作为一个根本字符集。而后，其余所有符号都转换成这个字符集中的字符。

具体来说，转换形式能够分为四步。

第一步，将每三个字节作为一组，一共是 24 个二进制位。
第二步，将这 24 个二进制位分为四组，每个组有 6 个二进制位。
第三步，在每组后面加两个 00，扩大成 32 个二进制位，即四个字节。
第四步，依据下表，失去扩大后的每个字节的对应符号，这就是 Base64 的编码值。

因为，Base64 将三个字节转化成四个字节，因而 Base64 编码后的文本，会比原文本大出三分之一左右。

如果字节数有余三，则这样解决：

1. 二个字节的状况：将这二个字节的一共 16 个二进制位，依照下面的规定，转成三组，最初一组除了后面加两个 0 以外，前面也要加两个 0。这样失去一个三位的 Base64 编码，再在开端补上一个 ”=” 号。

比方，”Ma” 这个字符串是两个字节，能够转化成三组 00010011、00010110、00010000 当前，对应 Base64 值别离为 T、W、E，再补上一个 ”=” 号，因而 ”Ma” 的 Base64 编码就是 TWE=。

2. 一个字节的状况：将这一个字节的 8 个二进制位，依照下面的规定转成二组，最初一组除了后面加二个 0 以外，前面再加 4 个 0。这样失去一个二位的 Base64 编码，再在开端补上两个 ”=” 号。

比方，”M” 这个字母是一个字节，能够转化为二组 00010011、00010000，对应的 Base64 值别离为 T、Q，再补上二个 ”=” 号，因而 ”M” 的 Base64 编码就是 TQ==。

转换 Base64 工具
参考文章

在计算机内存中，对立应用 Unicode 编码，当须要保留到硬盘或者须要传输的时候，就转换为 UTF- 8 编码。

浏览网页的时候，服务器会把动静生成的 Unicode 内容转换为 UTF- 8 再传输到浏览器。

要正确显示 HTML 页面，web 浏览器必须晓得页面中应用的字符集。

<!-- html -->
<meta charset="UTF-8">

<!-- xml -->
<?xml version="1.0" encoding="UTF-8"?>

比拟 HTML 和 xml 中的写法：xml 的写法更加标准

charset 是 character set 的简写，即 字符集。
encoding 是 charset encoding 的简写，即 字符集编码 ，简称编码。

指定了编码，它所对应的 字符集 天然就指定了，编码才是咱们最终要关怀的。

文档内的编码申明
响应体中的 content-type 字段中的编码信息
BOM
BOM=Byte Order Mark，“字节程序标识”。响应流中的结尾字节。

如果有 BOM，就能间接晓得对应的编码
缺省
缺省形式是以上几种形式都生效时的兜底计划，没有 BOM，没有 header，没有 meta，浏览器只好“蒙”一个编码。

如果多形式并存，且给出的编码信息不统一，通常按这样的优先级来取舍：

BOM > 响应头编码 > 文档内编码申明

在 HTML 中，某些字符是预留的，比方不能应用小于号（<）和大于号（>），这是因为浏览器会误认为它们是标签。如果心愿正确地显示预留字符，咱们必须在 HTML 源代码中应用字符实体（character entities）。

字符实体: // <

& entity_name; // &lt;
或
& entity_number; // &#60;

思考到 URI 在各种平台间传输时的兼容性，URI 标准中规定只有 US-ASCII 字符集中的字符能够间接呈现在 URI 中。事实上，甚至 ASCII 自身的许多字符也不容许间接呈现在 URI 中，有的也要本义。URL 门路中的中文须要本义，具体编码用的是 utf-8。

能够间接应用的：26 个大小写字母，10 个数字，四个标点符号：-，.，_，~（“短横”、“点号”、“下划线”、“波浪线”）。其它的有的属于保留字，用作为分隔符（delimiters），它们有：

“:” / “/” / “?” / “#” / “[” / “]” / “@” / “!” / “$” / “&” / “‘” / “(” / “)” / “*” / “+” / “,” / “;” / “=”

比方正斜杠“/”就是一个最罕用的分隔符。如果想在 URL 中蕴含这样符号，又不想它们被解析为分隔符，就要对其本义。其它的还有一些不能够打印的字符也要本义，比方“空格”等。

保留字符在不做分隔符或者具备非凡含意的时候是须要编码的。如果应用了一些其余文字和特殊字符，则须要通过编码的形式来进行示意：

因为 URI 在协定中只筛选了局部 ASCII 字符，数字以及符号，那么当须要示意不在这个范畴之内的符号，字符，或者该字符在 URI 中被用来分隔符等非凡用处时，就须要对这个字符进行 % 编码。百分号编码也能够叫做 URLEncode，其中的每一个局部用【%XX】来示意，其中 XX 示意一个十六进制的数。

encodeURI 会将须要编码的字符转换为 UTF-8 的格局。对于非转义字符以及保留字符（;,/?:@&=+$#）不会进行本义。

// URL 中蕴含中文
encodeURI('http://www. 帅.com'); // http://www.%E5%B8%85.com

// 值的内容为特殊符号。值为?&
encodeURI('http://a.com?key=?&'); // "http://a.com?key=?&"

encodeURIComponent 会编码所有的 URL 保留字：

encodeURIComponent('https://aotu.io/')
// "https%3A%2F%2Faotu.io%2F"

encodeURI('https://aotu.io/')
// "https://aotu.io/"

在解决页面跳转、跟服务器端进行交互时, 凡波及到对 URI 进行解析的、最好用 encodeURIComponent 进行编码防止局部数据的失落.

关于url:简述字符集与编码

字符编码 ASCII 码（编码字符集）

汉字的示意和编码

汉字编码包含:

GBK

Unicode

UTF-32

UTF-8

Emoji

Base64

计算机中通用的字符编码的工作形式

Web 中的编码

如何确定一个网页中编码

HTML 编码

URI 编码

编码起因：

% 编码