关于http:HTTP-协议上下文介绍和多断点续传原理

125次阅读

共计 3977 个字符,预计需要花费 10 分钟才能阅读完成。

HTTP 协定(上下文介绍和多断点续传原理)

HTTP 申请和响应都有一些示意 上下文 的罕用头部,所谓 上下文 指的就是某个申请(或响应)从哪里来,或者说某个申请(或响应)对后续申请(或响应)产生哪些影响,前面从 HTTP 协定的角度剖析大文件(大的包体)如何做到 断点续传 的,下载大文件(大的包体)的时候是如何做到 多线程 并发下载的。

1. 申请的上下文 User-Agent

User-Agent 用于指明客户端的用户类型信息,服务器能够依据此类型信息做出对应响应,上面给出基于 ABNF 形容的 User-Agent 格局:

User-Agent = product*(RWS(product/comment))
  product = token ["/" product-version]
  RWS = 1*(SP/HTAB)

2.User-Agent 示例

2.1 firefox 浏览器中的 User-Agent
User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0

如下图所示:

Tips:Mozilla/5.0 示意浏览器兼容 Mozilla/5.0Windows NT 10.0; Win64; x64; rv:83.0示意的就是操作系统的版本信息,Gecko/20100101firefox 浏览器的渲染引擎,Firefox/83.0 是浏览器的公布版本号。

2.2 chrome 浏览器中的 User-Agent
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36

如下图所示:

Tips:Mozilla/5.0 示意浏览器兼容 Mozilla/5.0Windows NT 10.0; Win64; x64示意的就是操作系统的版本信息,GAppleWebKit/537.36 (KHTML, like Gecko) 示意浏览器的渲染引擎,Chrome/86.0.4240.198Safari/537.36 都是示意浏览器的公布版本号。

2. 申请上下文 Referer

2.1 Referer 头部格局

浏览器会对来自某一页面的申请主动增加 Referer 头部信息,格局如下:

Referer = absolute-URI / partial-URI

如下图所示:

Tips:图中示意从 www.baidu.com 跳转过来的,防盗链的时候能够用到。

2.2 Referer 不被增加到头部的场景
  • 起源页面采纳的协定是示意本地文件的 filedataURI
  • 以后申请页面采纳的是 http 协定,而起源页面采纳的是 https 协定。
2.3 Referer 常见作用
  • 服务器统计分析
  • 缓存优化
  • 防盗链

3. 申请上下文 From

From 次要用于网络爬虫,通知服务器如何通过邮件分割到爬虫负责人,格局如下:

From = mailbox

Tips:例如:From:webmaster@example.org

4. 响应的上下文 Server

指明了服务器中所用的软件信息,用于帮忙客户端定位问题或者同级数据,格局如下:

Server = product*(RWS(product/comment))
  product = token ["/" product-version]

如下图所示:

5. 响应上下文 Allow、Accept-Ranges

5.1 Allow

通知客户端,服务器上 URI 对应的资源容许哪些办法的执行,格局如下:

Allow = #method

Tips:例如:GET、HEAD、PUT

5.2 Accept-Ranges

通知客户端服务器上该资源是否容许 range 申请,格局如下:

Accept-Ranges = accepttable-ranges

Tips:例如:Accept-Ranges:bytes、Accept-Ranges:none

6. 上下文 Connection

Connection: keep-alive 示意长连贯,当事务实现后,不会敞开网络连接,Connection: close 示意短连贯,客户端或服务器端想要敞开网络连接,如下图所示:

7. 多线程、断点续传、随机点播步骤

  • 1.客户端明确任务:从哪里开始下载,本地是否曾经有局部文件,文件已下载局部是否在服务器端产生扭转,应用几个线程并发下载。
  • 2.下载文件的指定局部内容。
  • 3.下载结束后拼装成对立的文件。

8.HTTP Range 标准(RFC 7233)

  • 容许服务器基于客户端的申请只发送响应包体的一部分给到客户端,而客户端主动将多个片断的包体组合成残缺的更大的包体,反对断点续传,反对多线程下载,反对视频播放器实时拖动。
  • 服务器通过 Accept-Range 头部示意是否反对 Rang 申请,格局如 Accept-Ranges = acceptable-ranges,例如 Accept-Ranges:bytes 示意反对,Accept-Ranges:none不示意不反对。

9. Range 申请范畴的单位

9.1 Range 头部格局

基于字节,假如包体总长度为 500Range 头部格局如下:

# 第一个 100 字节
bytes=0-99
#第二个 100 字节
bytes=100-199
bytes=100-120,121-199
bytes=100-155,156-199
#最初一个 100 字节
bytes=-100
bytes=100-
#仅仅只传第一个和最初一个字节
bytes=0-0,-1

Tips:通过 Range 头部传递申请范畴,如:Range:bytes=0-99

9.2 curl 模仿 Range
# 全部内容:abcdefghijklmnopqrstuvwxyz1234567890,上面是只截取第 21 字节到最初

curl http://singwa666.com/text.txt -H 'Range:bytes=20-30'
9.3 wireshark 抓取申请报文

如下图所示:

wireshark 抓包中的 HTTP 申请数据如下:

Tips:其中 Range:bytes=20-30\r\n 示意通知服务器只返回第 21 字节至 第 31 字节的内容。

9.4 wireshark 抓取申请报文

wireshark 抓包中的 HTTP 响应数据如下:

Tips:其中 ETag: "5fd06ef3-24"\r\n 示意该申请内容的 指纹。

9.5 Range 条件申请模仿断点续传

http://singwa666.com/text.txt 中寄存的是 abcdefghijklmnopqrstuvwxyz123456789036 字节的内容。
步骤 1:申请第 0-5 字节
若客户端曾经失去了 Range 响应的一部分,并想在这部分响应未过期的状况下,获取其余局部响应就能够应用 If-Unmodified-SinceIf-Match 头部,申请 0-5 字节命令如下:

curl http://singwa666.com/text.txt -H 'Range:bytes=0-5' -I

如下图所示:

Tips:-I 示意显示服务器响应内容,ETag: "5fd06ef3-24" 示意响应内容的指纹。

步骤 2:申请 6-10 字节,Etag 指纹匹配场景
应用 If-Match 判断 步骤 1 指纹内容,应用匹配的指纹:

curl http://singwa666.com/text.txt -H 'Range:bytes=6-10' -H 'If-Match:"5fd06ef3-24"'

如下图所示:

Tips:此时能失去正确的 6-10 字节响应,客户端能够把获取的内容和第一段获取的内容合并成残缺的内容。

步骤 2:申请 6-10 字节,Etag 指纹不匹配场景
应用 If-Match 判断 步骤 1 指纹内容,应用不匹配的指纹:

curl http://singwa666.com/text.txt -H 'Range:bytes=6-10' -H 'If-Match"aaaaaaa-24"'

如下图所示:

Tips:此时 HTTP 状态码 412,示意提醒客户端须要从新去获取第一段内容能力合成残缺的内容。

9.6 Range 相干的服务器响应
  • 206 Partial Content:格局如下:
#Content-Range 头部:显示以后片段包体在完整包中的地位
Content-Range = byte-content-range / other-content-range
   byte-range-resp = byte-range "/" (complete-length / "*")
      complete-length = 1*DIGIT
#残缺资源的大小,如果未知则用 `*` 代替

如下图所示:

Tips:Content-Range: bytes 0-5/36\r\n 示意只响应返回了全副 36 字节中的 0-5 字节内容。

  • 断点续传利用场景,如下图所示示意服务器响应的 Range 的数据:

Tips: 其中 Content-Range: bytes 9240576-35698347/35698348 示意响应内容 9240576-35698347 字节内容,全副 35698348 字节,ETag 示意内容指纹 E046100C5DF23585361797FD9647BC74-2

  • 视频断点申请 Range 数据如下:

Tips:其中 Range: bytes=9240576-35698347 示意申请第 924057635698347 字节的内容。

  • 416 Range Not Satisfiable
curl http://singwa666.com/text.txt -H 'Range:bytes=50-60' -H 'If-Match:"5fd06ef3-24"'

如下图所示:

  • 200 OK:若服务器不反对 Range 申请时,则会返回 200 残缺的响应包体。

Tips:能够应用 Range:0-10,20-30 应用多范畴申请。

扫码关注爱因诗贤

正文完
 0