前言
测试环境
Python 3.8yarl 1.8.1
- 本文次要是绝对比易用性,无关性能
- yarl 官网文档:https://yarl.aio-libs.org/en/...
- url 组成部分
yarl VS. urllib
获取 url 参数
- urllib
>>> from urllib import parse>>> url = r'https://docs.python.org/3.8/search.html?q=parse&check_keywords=yes&area=default'>>> parseResult = parse.urlparse(url)>>> parseResultParseResult(scheme='https', netloc='docs.python.org', path='/3.8/search.html', params='', query='q=parse&check_keywords=yes&area=default', fragment='')>>> param_dict = parse.parse_qs(parseResult.query)>>> param_dict{'q': ['parse'], 'check_keywords': ['yes'], 'area': ['default']}>>> q = param_dict['q'][0]>>> q'parse'#留神:加号会被解码,可能有时并不是咱们想要的>>> parse.parse_qs('proxy=183.222.102.178:8080&task=XXXXX|5-3+2'){'proxy': ['183.222.102.178:8080'], 'task': ['XXXXX|5-3 2']}
如果你还想问为什么没有 urldecode,把下面的示例看五遍。^_^
- yarl
>>> url = URL(r"https://docs.python.org/3.8/search.html?q=parse&q=1&check_keywords=yes&area=default")>>> url.query["q"]'parse'# 多值时能够用 getall 函数>>> url.query.getall("q") ['parse']
解析 url 的 query string
- urllib
>>> from urllib import parse>>> parse.parse_qs('action=addblog&job=modify&tid=1766670') # 1{'tid': ['1766670'], 'action': ['addblog'], 'job': ['modify']} #留神和第3个并不一样>>> parse.parse_qsl('action=addblog&job=modify&tid=1766670')[('action', 'addblog'), ('job', 'modify'), ('tid', '1766670')] # 3>>> dict(parse.parse_qsl('action=addblog&job=modify&tid=1766670')) #留神和第1个并不一样{'tid': '1766670', 'action': 'addblog', 'job': 'modify'}
- yarl
>>> url = URL.build(query_string="action=addblog&job=modify&tid=1766670")>>> url.query<MultiDictProxy('action': 'addblog', 'job': 'modify', 'tid': '1766670')>>>> url.query['tid']'1766670'
encode 编码
- urllib
>>> from urllib import parse>>> query = { 'name': 'walker', 'age': 99, }>>> parse.urlencode(query)'name=walker&age=99'
- yarl
from yarl import URL>>> query = { 'name': 'walker', 'age': 99, }>>> url = URL.build(query=query)>>> url.query_string'name=walker&age=99'
quote 编码
- urllib
>>> from urllib import parse>>> parse.quote('a&b/c') #未编码斜线'a%26b/c'>>> parse.quote_plus('a&b/c') #编码了斜线'a%26b%2Fc'
- yarl
yarl 仿佛无此性能
unquote 解码
- urllib
from urllib import parse>>> parse.unquote('1+2') #不解码加号'1+2'>>> parse.unquote('1+2') #把加号解码为空格'1 2'
域名编码防止敏感词屏蔽
>>> ''.join('%' + ('%x'%ord(ch)).upper() for ch in 'github.com')'%67%69%74%68%75%62%2E%63%6F%6D'
本文出自 qbit snap