关于javascript:JS对url进行编码和解码的原因及方式三种方式的区别

一、为什么要编码解码

咱们都晓得Http协定中参数的传输是"key=value"这种几乎对模式的，如果要传多个参数就须要用“&”符号对键值对进行宰割。

如"?name1=value1&name2=value2"，这样在服务端在收到这种字符串的时候，会用“&”宰割出每一个参数，而后再用“=”来宰割出参数值。

针对“name1=value1&name2=value2”咱们来说一下客户端到服务端的概念上解析过程:

上述字符串在计算机中用ASCII吗示意为：

text6E616D6531 3D 76616C756531 26 6E616D6532 3D 76616C756532。    6E616D6531：name1    3D：=    76616C756531：value1    26：&   6E616D6532：name2    3D：=    76616C756532：value2

服务端在接管到该数据后就能够遍历该字节流，首先一个字节一个字节的吃，当吃到3D这字节后，服务端就晓得后面吃得字节示意一个key，再想后吃，如果遇到26，阐明从方才吃的3D到26子节之间的是上一个key的value，以此类推就能够解析出客户端传过来的参数。

当初有这样一个问题，如果我的参数值中就蕴含=或&这种特殊字符的时候该怎么办？

比如说“name1=value1”,其中value1的值是“va&lu=e1”字符串，那么理论在传输过程中就会变成这样“name1=va&lu=e1”。咱们的本意是就只有一个键值对，然而服务端会解析成两个键值对，这样就产生了奇怪。

如何解决上述问题带来的歧义呢？解决的方法就是对参数进行URL编码
URL编码只是简略的在特殊字符的各个字节前加上%，例如，咱们对上述会产生奇怪的字符进行URL编码后后果：“name1=va%26lu%3D”，这样服务端会把紧跟在“%”后的字节当成一般的字节，就是不会把它当成各个参数或键值对的分隔符。

另外一个问题，就是为什么咱们要用ASCII传输，可不可以用别的编码？
当然能够用别的编码，你本人能够开发一套编码，而后本人解析。就像大部分国家都有本人的语言一样。那国家之间要交换，怎么办？用英语把，英语的应用范畴最广。

通常如果一样货色须要编码，阐明这样货色并不适宜传输。起因多种多样，如Size过大，蕴含隐衷数据，对于Url来说，之所以要进行编码，是因为Url中有些字符会引起歧义。

例如，Url参数字符串中应用key=value键值对这样的模式来传参，键值对之间以&符号分隔，如/s?q=abc&ie=utf-8。如果你的value字符串中蕴含了=或者&，那么势必会造成接管Url的服务器解析谬误，因而必须将引起歧义的&和=符号进行本义，也就是对其进行编码。

又如，Url的编码格局采纳的是ASCII码，而不是Unicode，这也就是说你不能在Url中蕴含任何非ASCII字符，例如中文。否则如果客户端浏览器和服务端浏览器反对的字符集不同的状况下，中文可能会造成问题。

Url编码的准则就是应用平安的字符（没有非凡用处或者非凡意义的可打印字符）去示意那些不平安的字符。

准备常识：URI是对立资源标识的意思，通常咱们所说的URL只是URI的一种。典型URL的格局如下所示。上面提到的URL编码，实际上应该指的是URI编码。

> `foo:``//example.com:8042/over/there?name=ferret#nose`> >  `_/ ______________/ ________/_________/ __/`> >  `|         |              |         |        |`> >   scheme     authority                path      query   fragment

二、哪些字符须要编码

RFC3986文档规定，Url中只容许蕴含英文字母（a-zA-Z）、数字（0-9）、-_.~4个特殊字符以及所有保留字符。RFC3986文档对Url的编解码问题做出了具体的倡议，指出了哪些字符须要被编码才不会引起Url语义的转变，以及对为什么这些字符须要编码做出了相应的解释。

US-ASCII字符集中没有对应的可打印字符：Url中只容许应用可打印字符。US-ASCII码中的10-7F字节全都示意控制字符，这些字符都不能间接呈现在Url中。同时，对于80-FF字节（ISO-8859-1），因为曾经超出了US-ACII定义的字节范畴，因而也不能够放在Url中。

保留字符：Url能够划分成若干个组件，协定、主机、门路等。有一些字符（:/?#[]@）是用作分隔不同组件的。例如：冒号用于分隔协定和主机，/用于分隔主机和门路，?用于分隔门路和查问参数，等等。

还有一些字符（!$&'()*+,;=）用于在每个组件中起到分隔作用的，如=用于示意查问参数中的键值对，&符号用于分隔查问多个键值对。当组件中的一般数据蕴含这些特殊字符时，须要对其进行编码。

RFC3986中指定了以下字符为保留字符：! * ' ( ) ; : @ & = + $ , / ? # [ ]

不平安字符：还有一些字符，当他们间接放在Url中的时候，可能会引起解析程序的歧义。这些字符被视为不平安字符，起因有很多。

空格：Url在传输的过程，或者用户在排版的过程，或者文本处理程序在解决Url的过程，都有可能引入无关紧要的空格，或者将那些有意义的空格给去掉。
引号以及<>：引号和尖括号通常用于在一般文本中起到分隔Url的作用
[#]：通常用于示意书签或者锚点
%：百分号自身用作对不平安字符进行编码时应用的特殊字符，因而自身须要编码
{}|^[]`~：某一些网关或者传输代理会篡改这些字符

须要留神的是：对于Url中的非法字符，编码和不编码是等价的，然而对于下面提到的这些字符，如果不通过编码，那么它们有可能会造成Url语义的不同。因而对于Url而言，只有一般英文字符和数字，特殊字符%$-_.+!*'()还有保留字符，能力呈现在未经编码的Url之中。其余字符均须要通过编码之后能力呈现在Url中。

这里打个比方：

http://baidu.com/ques='JS的编码解码'

下面除了中文，都是url认可呈现在外面的，所以咱们须要对中文进行翻译变为url认可的形式：

 let a = "http://baidu.com/ques='JS的编码解码'" console.log(encodeURI(a))

打印后果：

 http://baidu.com/ques='JS%E7%9A%84%E7%BC%96%E7%A0%81%E8%A7%A3%E7%A0%81'

此时地址符没有中文，有的只是数字英文，这些是非法字符，''单引号，.小点，百分号%属于特殊字符， : / 属于保留字符都是url认可的。

其实不止中文须要编码，因为最后搞这些技术的，或者说技术最后技术牛逼的大多都是那些说英文的，所以除了英文和那些与英文一起经常呈现的特殊符号被url认可，其余的什么韩语、日语还有一些其余国家与英文不同本源的字符都须要编码成url认可的，也能够说编码成老外（讲英文的老外）看的懂的货色才是url认可的

三、如何对Url中的非法字符进行编码

Url编码通常也被称为百分号编码（Url Encoding，also known as percent-encoding），是因为它的编码方式非常简单，应用%百分号加上两位的字符——0123456789ABCDEF——代表一个字节的十六进制模式。

Url编码默认应用的字符集是US-ASCII。例如a在US-ASCII码中对应的字节是0x61，那么Url编码之后失去的就是%61，咱们在地址栏上输出http://g.cn/search?q=%61%62%63，实际上就等同于在google上搜寻abc了。又如@符号在ASCII字符集中对应的字节为0x40，通过Url编码之后失去的是%40。

对于非ASCII字符，须要应用ASCII字符集的超集进行编码失去相应的字节，而后对每个字节执行百分号编码。对于Unicode字符，RFC文档倡议应用utf-8对其进行编码失去相应的字节，而后对每个字节执行百分号编码。如"中文"应用UTF-8字符集失去的字节为0xE4 0xB8 0xAD 0xE6 0x96 0x87，通过Url编码之后失去"%E4%B8%AD%E6%96%87"。

如果某个字节对应着ASCII字符集中的某个非保留字符，则此字节无需应用百分号示意。例如"Url编码"，应用UTF-8编码失去的字节是0x55 0x72 0x6C 0xE7 0xBC 0x96 0xE7 0xA0 0x81，因为前三个字节对应着ASCII中的非保留字符"Url"，因而这三个字节能够用非保留字符"Url"示意。最终的Url编码能够简化成"Url%E7%BC%96%E7%A0%81" ，当然，如果你用"%55%72%6C%E7%BC%96%E7%A0%81"也是能够的。

因为历史的起因，有一些Url编码实现并不齐全遵循这样的准则，上面会提到。

1.Javascript中的escape, encodeURI和encodeURIComponent的区别

JavaScript中提供了3对函数用来对Url编码以失去非法的Url，它们别离是escape / unescape, encodeURI / decodeURI和encodeURIComponent / decodeURIComponent。因为解码和编码的过程是可逆的，因而这里只解释编码的过程。

这三个编码的函数——escape，encodeURI，encodeURIComponent——都是用于将不平安不非法的Url字符转换为非法的Url字符示意，它们有以下几个不同点。

平安字符不同：

上面列出了这三个函数的平安字符（即函数不会对这些字符进行编码）

escape（69个）：*/@+-._0-9a-zA-Z
encodeURI（82个）：!#$&'()*+,/:;=?@-._~0-9a-zA-Z
encodeURIComponent（71个）：!'()*-._~0-9a-zA-Z

兼容性不同：

escape函数是从Javascript 1.0的时候就存在了，其余两个函数是在Javascript 1.5才引入的。然而因为Javascript 1.5曾经十分遍及了，所以实际上应用encodeURI和encodeURIComponent并不会有什么兼容性问题。

对Unicode字符的编码方式不同：

这三个函数对于ASCII字符的编码方式雷同，均是应用百分号+两位十六进制字符来示意。然而对于Unicode字符，escape的编码方式是%uxxxx，其中的xxxx是用来示意unicode字符的4位十六进制字符。

这种形式曾经被W3C废除了。然而在ECMA-262规范中依然保留着escape的这种编码语法。encodeURI和encodeURIComponent则应用UTF-8对非ASCII字符进行编码，而后再进行百分号编码。这是RFC举荐的。因而倡议尽可能的应用这两个函数代替escape进行编码。

实用场合不同：encodeURI被用作对一个残缺的URI进行编码，而encodeURIComponent被用作对URI的一个组件进行编码。从下面提到的平安字符范畴表格来看，咱们会发现，encodeURIComponent编码的字符范畴要比encodeURI的大。

咱们下面提到过，保留字符个别是用来分隔URI组件（一个URI能够被切割成多个组件，参考准备常识一节）或者子组件（如URI中查问参数的分隔符），如：号用于分隔scheme和主机，?号用于分隔主机和门路。因为encodeURI操纵的对象是一个残缺的的URI，这些字符在URI中原本就有非凡用处，因而这些保留字符不会被encodeURI编码，否则意义就变了。

组件外部有本人的数据表示格局，然而这些数据外部不能蕴含有分隔组件的保留字符，否则就会导致整个URI中组件的分隔凌乱。因而对于单个组件应用encodeURIComponent，须要编码的字符就更多了。

表单提交

当Html的表单被提交时，每个表单域都会被Url编码之后才在被发送。因为历史的起因，表单应用的Url编码实现并不合乎最新的规范。

例如对于空格应用的编码并不是%20，而是+号，如果表单应用的是Post办法提交的，咱们能够在HTTP头中看到有一个Content-Type的header，值为application/x-www-form-urlencoded。

大部分应用程序均能解决这种非标准实现的Url编码，然而在客户端Javascript中，并没有一个函数可能将+号解码成空格，只能本人写转换函数。还有，对于非ASCII字符，应用的编码字符集取决于以后文档应用的字符集。例如咱们在Html头部加上：

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

这样浏览器就会应用gb2312去渲染此文档（留神，当HTML文档中没有设置此meta标签，则浏览器会依据以后用户爱好去主动抉择字符集，用户也能够强制以后网站应用某个指定的字符集）。当提交表单时，Url编码应用的字符集就是gb2312。

之前在应用Aptana（为什么专指aptana上面会提到）遇到一个很蛊惑的问题，就是在应用encodeURI的时候，发现它编码失去的后果和我想的很不一样。上面是我的示例代码：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml">    <head>        <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />    </head>    <body>        <script type="text/javascript">            document.write(encodeURI("中文"));</script>    </body></html>

运行后果输入%E6%B6%93%EE%85%9F%E6%9E%83。显然这并不是应用UTF-8字符集进行Url编码失去的后果（在Google上搜寻"中文"，Url中显示的是%E4%B8%AD%E6%96%87）。

所以我过后就很质疑，难道encodeURI还跟页面编码无关，然而我发现，失常状况下，如果你应用gb2312进行Url编码也不会失去这个后果的才是。起初终于被我发现，原来是页面文件存储应用的字符集和Meta标签中指定的字符集不统一导致的问题。

Aptana的编辑器默认状况下应用UTF-8字符集。也就是说这个文件理论存储的时候应用的是UTF-8字符集。然而因为Meta标签中指定了gb2312，这个时候，浏览器就会依照gb2312去解析这个文档，那么天然在"中文"这个字符串这里就会出错，因为"中文"字符串用UTF-8编码过后失去的字节是0xE4 0xB8 0xAD 0xE6 0x96 0x87，这6个字节又被浏览器拿gb2312去解码，那么就会失去另外三个汉字"涓枃"（GBK中一个汉字占两个字节），这三个汉字在传入encodeURI函数之后失去的后果就是%E6%B6%93%EE%85%9F%E6%9E%83。因而，encodeURI应用的还是UTF-8，并不会受到页面字符集的影响。

对于蕴含中文的Url的解决问题，不同浏览器有不同的体现。例如对于IE，如果你勾选了高级设置"总是以UTF-8发送Url"，那么Url中的门路局部的中文会应用UTF-8进行Url编码之后发送给服务端，而查问参数中的中文局部应用零碎默认字符集进行Url编码。为了保障最大互操作性，倡议所有放到Url中的组件全副显式指定某个字符集进行Url编码，而不依赖于浏览器的默认实现。

另外，很多HTTP监督工具或者浏览器地址栏等在显示Url的时候会主动将Url进行一次解码（应用UTF-8字符集），这就是为什么当你在Firefox中拜访Google搜寻中文的时候，地址栏显示的Url蕴含中文的缘故。但实际上发送给服务端的原始Url还是通过编码的。你能够在地址栏上应用Javascript拜访location.href就可以看进去了。在钻研Url编解码的时候千万别被这些假象给蛊惑了。

然而因为历史起因，目前尚存在一些不规范的编码实现。例如对于~符号，尽管RFC3986文档规定，对于波浪符号~，不须要进行Url编码，然而还是有很多老的网关或者传输代理会进行编码
Javascript语言用于编码的函数，一共有三个，最古老的一个就是escape()。尽管这个函数当初曾经不提倡应用了，然而因为历史起因，很多中央还在应用它，所以有必要先从它讲起。

escape 和 unescape

实际上，escape()不能间接用于URL编码，它的真正作用是返回一个字符的Unicode编码值。比方"春节"的返回后果是%u6625%u8282，也就是说在Unicode字符集中，"春"是第6625个（十六进制）字符，"节"是第8282个（十六进制）字符。

它的具体规定是，除了ASCII字母、数字、标点符号"@ * _ + - . /"以外，对其余所有字符进行编码。在u0000到u00ff之间的符号被转成%xx的模式，其余符号被转成%uxxxx的模式。对应的解码函数是unescape()。

还有两个中央须要留神。

首先，无论网页的原始编码是什么，一旦被Javascript编码，就都变为unicode字符。也就是说，Javascipt函数的输出和输入，默认都是Unicode字符。这一点对上面两个函数也实用。

其次，escape()不对"+"编码。然而咱们晓得，网页在提交表单的时候，如果有空格，则会被转化为+字符。服务器解决数据的时候，会把+号解决成空格。所以，应用的时候要小心。