乐趣区

Python3-urllibparse-常用函数示例walker

  • 获取 url 参数。
>>> from urllib import parse
>>> url = r'https://docs.python.org/3.5/search.html?q=parse&check_keywords=yes&area=default'
>>> parseResult = parse.urlparse(url)
>>> parseResult
ParseResult(scheme='https', 
            netloc='docs.python.org', 
            path='/3.5/search.html', 
            params='', 
            query='q=parse&check_keywords=yes&area=default', 
            fragment='')
>>> param_dict = parse.parse_qs(parseResult.query)
>>> param_dict
{'q': ['parse'], 'check_keywords': ['yes'], 'area': ['default']}
>>> q = param_dict['q'][0]
>>> q
'parse'
#注意:加号会被解码,可能有时并不是我们想要的
>>> parse.parse_qs('proxy=183.222.102.178:8080&task=XXXXX|5-3+2')
{'proxy': ['183.222.102.178:8080'], 'task': ['XXXXX|5-3 2']}

如果你还想问为什么没有 urldecode,把上面的示例看五遍。^_^

  • parse_qs/parse_qsl
>>> from urllib import parse
>>> parse.parse_qs('action=addblog&job=modify&tid=1766670')            # 1
{'tid': ['1766670'], 'action': ['addblog'], 'job': ['modify']}        #注意和第 3 个并不一样
>>> parse.parse_qsl('action=addblog&job=modify&tid=1766670')
[('action', 'addblog'), ('job', 'modify'), ('tid', '1766670')]        # 3
>>> dict(parse.parse_qsl('action=addblog&job=modify&tid=1766670'))    #注意和第 1 个并不一样
{'tid': '1766670', 'action': 'addblog', 'job': 'modify'}
  • urlencode
>>> from urllib import parse
>>> query = {
    'name': 'walker',
    'age': 99,
    }
>>> parse.urlencode(query)
'name=walker&age=99'
  • quote/quote_plus
>>> from urllib import parse
>>> parse.quote('a&b/c')    #未编码斜线
'a%26b/c'
>>> parse.quote_plus('a&b/c')    #编码了斜线
'a%26b%2Fc'
  • unquote/unquote_plus
from urllib import parse
>>> parse.unquote('1+2')    #不解码加号
'1+2'
>>> parse.unquote('1+2')    #把加号解码为空格
'1 2'
  • 域名编码避免敏感词屏蔽。
>>> ''.join('%'+ ('%x'%ord(ch)).upper() for ch in'github.com')'%67%69%74%68%75%62%2E%63%6F%6D'

本文出自 walker snapshot

退出移动版