关于python:0基础学爬虫爬虫基础之HTTP协议的基本原理介绍

大数据时代，各行各业对数据采集的需要日益增多，网络爬虫的使用也更为宽泛，越来越多的人开始学习网络爬虫这项技术，K哥爬虫此前曾经推出不少爬虫进阶、逆向相干文章，为实现从易到难全方位笼罩，特设【0根底学爬虫】专栏，帮忙小白疾速入门爬虫，本期为 HTTP 协定的基本原理介绍。

计算机网络模型

计算机网络是指由通信线路相互连贯的许多自主工作的计算机形成的集合体，各个部件之间以何种规定进行通信，就是网络模型钻研的问题，除了规范的 OSI 七层模型以外，常见的网络档次划分还有 TCP/IP 四层协定以及 TCP/IP 五层协定，它们之间的对应关系如下图所示：

物理层（Physical）：负责传输比特流的硬件局部，包含各种传输介质（如铜线、光纤、无线信道）和传输设施（如集线器、交换机、路由器），基于电器个性发送高下电压（电信号）传输比特流（Bits），高电压对应数字 1，低电压对应数字 0，定义物理设施规范，如网线的接口类型、光纤的接口类型、各种传输介质的传输速率等；
数据链路层（Data Link）：负责在物理层的传输介质上传送数据帧，并在源主机和目标主机之间建设逻辑链路，定义了电信号的分组形式，规定电信号多少位一组，每组代表什么，这一层还提供了对传输数据的检测和传输数据谬误的纠正以确保数据的牢靠传输，例如：Wi-Fi（IEEE 802.11）、ethernet（以太网）、FDDI（Fiber Distributed Data Interface，光纤分布式数据接口）等；
网络层（Network）：负责在多个主机之间传送数据包，并为分组替换提供路由抉择性能，根本数据单位为 IP 数据报，次要协定：IP协定（Internet Protocol，因特网互联协定）、 ICMP（Internet Control Message Protocol，因特网管制报文协定）、IGMP（Internet Group Management Protocol，Internet 组治理协定）、ARP（Address Resolution Protocol，地址解析协定）等；
传输层（Transport）：负责在源主机和目标主机之间的端到端的数据传输，并为下层协定提供牢靠的数据传输服务，次要协定：TCP 协定（Transmission Control Protocol，传输控制协议）、UDP 协定（User Datagram Protocol，用户数据报协定）；
会话层（Session）：负责封装调用 TCP，会话层建设和管理应用程序之间的通信，封装了调用 TCP 去打包，而后调用 IP 协定去找路由等操作；
表示层（presentation）：负责解决不同零碎之间的通信语法问题（数据格式化，代码转换，数据加密）；
应用层（Application）：负责向用户提供网络服务，包含文件传输、电子邮件、近程登录等，次要协定：FTP（文件传送协定）、Telnet（近程登录协定）、DNS（域名解析协定）、SMTP（邮件传送协定），POP3协定（邮局协定），HTTP协定（Hyper Text Transfer Protocol）。

HTTP 发展史

HTTP 协定和 HTTPS 协定

HTTP（Hypertext Transfer Protocol）中文名为超文本传输协定，其作用是把超文本数据从网络传输到本地浏览器，可能高效而精确地传输超文本文档。HTTP 是由万维网协会（World Wide Web Consortium）和 Internet 工作小组 IETF（Interner Engineering Task Force）单干制订的标准，目前被宽泛应用的是 HTTP 1.1 版本，现在也有不少网站反对 HTTP 2.0 版本。

HTTP 协定的特点：

应用层协定，由申请和响应形成，是一个规范的客户端服务器模型；
无状态的协定，对客户端没有状态存储，对事物解决没有“记忆”能力，比方拜访一个网站须要重复进行登录操作；
通常承载于 TCP 协定之上；
由申请和响应形成，是一个规范的客户端服务器模型（B/S）；
永远都是客户端发动申请，服务器回送响应；
通信应用明文、申请和响应不会对通信方进行确认、无奈爱护数据的完整性；
双向协定，例如在上网冲浪时，浏览器是申请方 A，百度网站就是应答方 B，单方约定用 HTTP 协定来通信，于是浏览器把申请数据发送给网站，网站再把一些数据返回给浏览器，最初由浏览器渲染在屏幕，就能够看到图片、视频了。

HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）是一种通过计算机网络进行平安通信的传输协定，经由 HTTP 进行通信，利用 SSL/TLS 建设全信道，加密数据包，HTTPS 应用的次要目标是提供对网站服务器的身份认证，同时爱护替换数据的隐衷与完整性，相当于 HTTP 协定的平安版。

HTTPS 协定的特点：

内容加密：建设了一个信息安全通道，保障数据传输的安全性；
身份验证：确认网站的真实性，但凡应用 HTTPS 协定的网站，都能够通过单机浏览器地址栏的锁头标记来查看网站认证之后的实在信息，此外还能够通过 CA 机构颁发的平安签章来查问；
爱护数据完整性：避免传输的内容被中间人假冒或者篡改。

时事倒退：

苹果公司强制所有 iOS APP 在2017年1月1日前全副改为应用 HTTPS 加密，否则 APP 无奈在利用商店上架；
谷歌从2017年1月推出的 Chrome 56 开始，对未进行 HTTPS 加密的网址亮出危险提醒，即在地址栏的显著地位提醒用户”此网页不平安“；
腾讯微信小程序的官网需要文档要求后盾应用 HTTPS 申请进行网络通信，不满足条件的域名和协定无奈失常申请。

HTTP 和 HTTPS 的区别次要如下：

HTTPS 协定须要到 CA 申请证书，个别收费证书较少，因此须要肯定费用；
HTTP 是超文本传输协定，信息是明文传输，HTTPS 则是具备安全性的 SSL 加密传输协定；
HTTP 和 HTTPS 应用的是齐全不同的连贯形式，用的端口也不一样，前者是80，后者是443；
HTTP 的连贯很简略，是无状态的；HTTPS 协定是由 SSL+HTTP 协定构建的可进行加密传输、身份认证的网络协议，比 HTTP 协定平安。

上述 HTTPS 看起来是加强版的 HTTP，可圈可点，但并不是白璧无瑕的：

HTTPS 协定的加密范畴也比拟无限，在黑客攻击、拒绝服务攻打、服务器劫持等方面简直起不到什么作用；
SSL 证书的信用链体系并不平安，特地是在某些国家能够管制 CA 根证书的状况下，中间人攻打一样可行；
SSL 证书须要购买申请，性能越弱小的证书费用越高；
SSL 证书通常须要绑定 IP，不能在同一 IP 上绑定多个域名，IPv4 资源不可能撑持这个耗费（SSL 有扩大能够局部解决这个问题，然而比拟麻烦，而且要求浏览器、操作系统反对）；
依据 ACM CoNEXT 数据显示，应用HTTPS协定会使页面的加载工夫缩短近50%，减少10%到20%的耗电；
HTTPS 连贯缓存不如 HTTP 高效，流量老本高；
HTTPS 连贯服务器端资源占用高很多，反对访客多的网站须要投入更大的老本；
HTTPS 协定握手阶段比拟费时，对网站的响应速度有影响，影响用户体验，比拟好的形式是采纳分而治之，比方首页用 HTTP，用户信息相干页用 HTTPS。

HTTP 申请过程

HTTP 由申请和响应形成，是一个规范的客户端服务器模型（B/S），HTTP 协定永远都是客户端发动申请，服务器回送响应，HTTP 是一个无状态的协定，无状态是指客户机（Web 浏览器）和服务器之间不须要建设长久的连贯，这意味着当一个客户端向服务器端发出请求，而后服务器返回响应（response），连贯就被敞开了，在服务器端不保留连贯的无关信息，HTTP 遵循申请(Request)/应答(Response)模型，客户机（浏览器）向服务器发送申请，服务器解决申请并返回适当的应答，所有 HTTP 连贯都被结构成一套申请和应答。

HTTP 申请/响应的步骤：

客户端连贯到 Web 服务器：一个 HTTP 客户端，通常是浏览器，与 Web 服务器的 HTTP 端口（默认为80）建设一个 TCP 套接字连贯；
发送 HTTP 申请：通过 TCP 套接字，客户端向 Web 服务器发送一个文本的申请报文，一个申请报文由申请行、申请头部、空行和申请数据四局部组成；
服务器承受申请并返回 HTTP 响应：Web 服务器解析申请，定位申请资源，服务器将资源复本写到 TCP 套接字，由客户端读取。一个响应由状态行、响应头部、空行和响应数据四局部组成；
开释连贯 TCP 连贯：若 connection 模式为 close，则服务器被动敞开 TCP 连贯，客户端被动敞开连贯，开释 TCP 连贯;若 connection 模式为 keepalive，则该连贯会放弃一段时间，在该工夫内能够持续接管申请；
客户端浏览器解析 HTML 内容：客户端浏览器首先解析状态行，查看表明申请是否胜利的状态代码，而后解析每一个响应头，响应头告知以下为若干字节的 HTML 文档和文档的字符集，客户端浏览器读取响应数据 HTML，依据 HTML 的语法对其进行格式化，并在浏览器窗口中显示。

步骤简述：

浏览器向 DNS 服务器申请解析该 URL 中的域名所对应的 IP 地址；
解析出 IP 地址后，依据该 IP 地址和默认端口 80，和服务器建设 TCP 连贯；
浏览器收回读取文件(URL 中域名前面局部对应的文件)的 HTTP 申请，该申请报文作为 TCP 三次握手的第三个报文的数据发送给服务器；
服务器对浏览器申请作出响应，并把对应的 HTML 文本发送给浏览器；
开释 TCP 连贯；
浏览器将该 HTML 文本并显示内容。

HTTP 申请/响应模型:

艰深点讲就是在浏览器地址栏输出一个 URL，按下回车之后便可察看到对应的页面内容，实际上，这个过程是浏览器先向网站所在的服务器发送一个申请，网站服务器接管到申请后对其进行解决和解析，而后返回对应的响应，接着传回浏览器，因为响应里蕴含页面的源代码等内容，所以浏览器在对其进行解析，便将网页出现进去。

HTTP 申请办法

HTTP/1.1 协定中共定义了八种办法（有时也叫“动作”），来表明 Request-URL 指定的资源不同的操作形式，HTTP1.0 定义了三种申请办法：GET，POST 和 HEAD 办法，HTTP1.1 新增的五种申请办法：OPTIONS，PUT，DELETE，TRACE 和 CONNECT 办法：

OPTIONS：返回服务器针对特定资源所反对的 HTTP 申请办法，也能够利用向 web 服务器发送 ‘*’ 的申请来测试服务器的功能性；
HEAD：向服务器索与 GET 申请相一致的响应，只不过响应体将不会被返回，这一办法能够再不用传输整个响应内容的状况下，就能够获取蕴含在响应报头中的元信息；
GET：向特定的资源发出请求，并返回实体主体；
POST：向指定资源提交数据进行解决申请（例如提交表单或者上传文件），数据被蕴含在申请体中，POST 申请可能会导致新的资源的建设和/或已有资源的批改；
PUT：向指定资源地位上传其最新内容；
DELETE：申请服务器删除 Request-URL 所标识的资源；
TRACE：回显服务器收到的申请，次要用于测试或诊断；
CONNECT：把服务器仿作跳板，让服务器代替客户端拜访其余网页。

最为常见的申请办法是 GET 和 POST，在浏览器地址栏输出一个 URL，按下回车，即发动了一个 GET 申请，申请的参数会间接蕴含到 URL 里；POST 申请大多在提交表单时发动，例如登录，输出用户名和明码，点击登录即发动一个 POST 申请，其数据通常以表单的模式传输，而不会体现在 URL 中，GET 和 POST 申请办法区别如下：

GET 申请中的参数蕴含在 URL 里，数据能够在 URL 中看到；而 POST 申请的 URL 不会蕴含这些数据，数据都是通过表单模式传输的，会蕴含在函数体中；
GET 申请提交的数据最多只有 1024 字节，POST 形式则没有限度；
GET 申请是不平安的，因为在传输过程中，参数数据间接裸露在 URL 上，所以不能用来传递敏感信息；
GET 申请参数会残缺的保留在浏览器的历史记录中，POST 申请的参数不会保留；
GET 申请在浏览器回退的时候是有害的，POST 申请会再次提交数据；
GET 申请在浏览器中能够被被动 cache（缓存），而 POST 申请不会，能够手动设置；
GET 申请产生的 URL 地址是能够被 bookmark（增加书签）的，POST 申请不能够；
GET 申请只容许 ASCII 码，POST 申请没有限度，容许二进制数据；
GET 申请的执行效率比 POST 申请好；
对于 GET 申请，浏览器会把 http header 和 data 一起发送进来，服务器响应200，申请胜利；
对于POST申请，浏览器先发送 header，服务器会响应100（曾经收到申请的第一局部，正在期待其余部分），浏览器再次发送 data，服务器返回200，申请胜利；
简而言之：GET 产生一个 TCP 数据包，POST 产生两个 TCP 数据包，不过并不是所有浏览器都会在 POST 中发送两次包，Firefox（火狐）就只发送一次；

HTTP 申请头

HTTP 申请头（HTTP Request Header）提供了对于申请，响应或者其余的发送实体的信息，HTTP 的头信息包含通用头、申请头、响应头和实体头四个局部：

通用头标：即可用于申请，也可用于响应，是作为一个整体而不是特定资源与事务相关联；
申请头标：容许客户端传递对于本身的信息和心愿的响应模式；
响应头标：服务器和于传递本身信息的响应；
实体头标：定义被传送资源的信息，即可用于申请，也可用于响应。

每个头域由一个域名，冒号（:）和域值三局部组成，罕用的 HTTP 申请头如下：

Accept：申请报头域，用于指定客户端可承受那些类型的信息；
Accept: application/json 浏览器能够承受服务器回发的类型为 application/json；
Accept: */* 代表浏览器能够解决所有类型,(个别浏览器发给服务器都是发这个)；
Accept-Encoding：用于指定客户端可承受的内容编码，通常指定压缩办法，是否反对压缩，反对什么压缩办法（gzip，deflate）；
Accept-Language：用于指定客户端可承受的语言类型（zh-cn,zh;q=0.5：反对的语言别离是简体中文和中文，优先反对简体中文）；
Content-type：也叫互联网媒体类型（Internet Media Type）或者 MIME 类型，在 HTTP 协定音讯头中用来示意具体申请中的媒体类型信息（text/html：HTML 格局、image/gif：GIF 图片、application/json：JSON 类型、application/x-www-form-urlencoded：表单数据、multipart/form-data：表单文件上传等）；
Host：申请报头域次要用于指定被申请资源的 Internet 主机和端口号，其内容为申请 URL 的原始服务器或网关的地位，从 HTTP1.1 版本开始，申请必须蕴含此内容；
Referer：用于标识申请是从哪个页面发过来的，服务器能够拿到这一信息并做相应的解决，如做起源统计、防盗链解决等；
User-Agent：简称 UA，这是一个非凡的字符串头，能够使服务器辨认客户端应用的操作系统及版本、浏览器及版本等信息；
Connection：示意是否须要长久连贯（HTTP 1.1默认进行长久连贯）；
Date：申请发送的日期和工夫；
Expect：申请的特定的服务器行为；
Warning：对于音讯实体的正告信息；
Max-Forwards：限度信息通过代理和网关传送的工夫；
Cookie：次要性能更是维持以后拜访会话，用来存储一些用户信息以便让服务器分别用户身份的（大多数须要登录的网站下面会比拟常见），比方 Cookie 会存储一些用户的用户名和明码，当用户登录后就会在客户端产生一个 Cookie 来存储相干信息，这样浏览器通过读取 Cookie 的信息去服务器上验证并通过后会断定你是非法用户，从而容许查看相应网页；

HTTP 响应头

HTTP 响应头（HTTP Responses Header）中蕴含了服务器对申请的应答信息，HTTP响应也由四个局部组成，别离是：状态行、消息报头、空行和响应注释：

状态行：由 HTTP 协定版本号，状态码，状态音讯三局部组成；
消息报头：用来阐明客户端要应用的一些附加信息；
空行：消息报头前面的空行是必须的；
响应注释：服务器返回给客户端的文本信息。

罕用的 HTTP 响应头如下：

Accept-Ranges：表明服务器是否反对指定范畴申请及哪种类型的分段申请；
Allow：对某网络资源的无效的申请行为，不容许则返回405；
Cache-Control：通知所有的缓存机制是否能够缓存及哪种类型；
Content-Language：响应体的语言；
Content-Length：响应体的长度；
Content-Location：申请资源可代替的备用的另一地址；
Content-Range：在整个返回体中本局部的字节地位；
Content-Type：返回内容的 MIME 类型；
Date：原始服务器音讯收回的工夫；
Expires：响应过期的日期和工夫，能够让代理服务器或浏览器将加载的内容更新到缓存中，当再次拜访雷同的内容时，就能够间接从缓存中加载，达到升高服务器负载、缩短加载工夫的目标；
Location：用来重定向接管方到非申请 URL 的地位来实现申请或标识新的资源；
Proxy-Authenticate：它指出认证计划和可利用到代理的该 URL 上的参数；
refresh：利用于重定向或一个新的资源被发明，在5秒之后重定向（由网景提出，被大部分浏览器反对）；
Server：蕴含服务器的信息，例如名称、版本号等；
Set-Cookie：设置 Http Cookie，响应头中的 Set-Cookie 用于通知浏览器须要将此内容放在 Cookie 中，下次申请时将 Cookie 携带上；
Warning：正告实体可能存在的问题；
WWW-Authenticate：表明客户端申请实体应该应用的受权计划。

HTTP 响应状态码

1xx：该状态码示意长期响应并须要请求者继续执行操作

100（持续）：请求者该当持续提出申请。服务器已收到申请的第一局部，正在期待残余局部；
101（切换协定）：请求者要求服务器切换协定，服务器也已确认切换协定；

2xx：该状态码示意胜利

200（胜利）：服务器已胜利解决申请。个别这示意服务器失常解决了申请，并且失常返回了相应的页面；
201（已创立）：申请胜利并且服务器胜利创立新资源；
202（已承受）：服务器已接管申请，但仍未解决；
203（非受权信息）：服务器胜利解决申请，然而返回的信息可能来自另外一起源;
204（无内容）：服务器胜利解决申请，然而没有返回任何内容；
205（重置内容）：服务器胜利解决申请，但没有返回任何内容；
206（局部内容）：服务器胜利解决了局部GET申请；

3xx：该状态码示意要实现申请，须要进一步操作，通常这些状态码用来重定向

300（多钟抉择）：针对申请，服务器能够执行多种操作。服务器能够依据请求者的（user-agent）抉择一项操作，或者提供操作列表供请求者抉择；
301（永恒挪动）：申请的网页已永恒挪动到新的地位。服务器返回该状态码时，会主动将请求者转到新地位；
302（长期挪动）：服务器目前从不同地位的网页响应申请，但请求者应持续应用原有地位进行后续的申请；
303（查看其它地位）：请求者该当对不同的地位应用独自的 GET 申请来检索响应时，服务器返回此状态码；
304（未修改）：自从上次申请后，申请的网页未修改过，服务器返回此状态码时，不会返回网页内容；
305（应用代理）：请求者只能应用代理拜访申请的网页；
307（长期重定向）：服务器目前从不同地位的网页响应申请，但请求者应持续应用原有地位来进行后续申请；

4xx：示意申请可能出错，障碍了服务器的解决

400（谬误申请）：示意客户端申请的语法错误，服务器无奈了解；
401（未受权）：申请要求身份验证。个别须要登录的网站，服务器可能会返回此状态码；
402：保留；
403（禁止）：服务器了解申请客户端的申请，拒绝请求；
404（未找到）：服务器无奈依据客户端申请找到资源；
405（办法禁用）：禁用申请中指定的办法；
406（不承受）：无奈应用申请的内容个性响应申请的网页；
407（须要代理受权）：此状态码与401相似，但指定请求者该当受权应用代理；
408（申请超时）：服务器等待申请时超时；
409（抵触）：服务器在实现申请是发生冲突。服务器必须在响应中蕴含无关抵触的信息；
410（已删除）：申请的资源已永恒删除；
411（须要无效长度）：服务器不承受不含无效内容长度标头字段的申请；
412（未满足前提条件）：服务器未满足请求者在申请中设置的其中一个前提条件；
413（申请实体过大）：相应实体过大。服务器回绝解决以后申请，申请超过服务器所能解决和容许解决的最大值；
414（申请的url过长）：申请的url过长，服务器无奈解决；
415（不反对的媒体类型）：申请的格局不受申请页面的反对；
416（申请范畴不符合要求）：如果页面无奈提供申请的范畴，服务器则会返回此状态码；
417（未满足期望值）：在申请头 Expect 指定的预期内容无奈被服务器满足；
422（不可解决的实体）：申请格局正确，但因为含有语义谬误，无奈响应；

5xx：示意服务器在尝试解决申请时产生外部谬误，这些谬误可能是服务器自身的谬误，并不是申请出错，当然也有可能是请求者的成心为之，使服务器自身呈现谬误

500（服务器外部谬误）：服务器遇到一个未预料到的情况，导致无奈实现对申请的解决；
501（尚未施行）：服务器不具备实现申请的性能；
502（谬误网关）：服务器作为网关或者代理，从上游服务器收到有效响应；
503（服务不可用）：服务器目前无奈应用；
504（网关超时）：服务器作为网关或代理，但未及时收到上游服务器的响应；
505（HTTP版本不受反对）：服务器不反对申请中所用的 HTTP 版本。