Requests 库
爬虫必备库,鼎鼎大名,用来发动 get、post 等申请,能够算是 url 库在 python3 的继承者。
BeautifulSoup 库
爬虫必备库,也是很有名,用来解析 html 代码,从中提取有用数据。个别举荐搭配 lxml 解析库应用,有些代码遇到解析问题,能够尝试用 html.parser 库代替。
tqdm 库
能够用来作进度条,展现程序执行进度,比方爬虫的日志。然而留神,在 windows 命令行中,无奈实现同行刷新,每次都会输入一行新的,就不举荐应用了。(powershell 下没试过)
peewee 库
用来做数据库模型很好用,当然也能够间接用 sqlalchemy 库。这个库我集体感觉,比后者学起来要简略一些,而且能够用命令行在模型类和数据库表构造之间一键导入导出。
Arrow 库
集体感觉最好用的工夫转换库,强烈推荐。反对各种格局,并且 api 可读性也很好,不便切换前后 N 天 N 周等。
PIL 库
python 最佳图形处理库,我只用它做过图像裁切转换拼接等,据说能够实现一一像素批改、检测、计算等,在图像识别畛域也有很多用处。
OpenPyxl
我集体比拟喜爱的 office 文档解决库,用来解决 excel 很不便。然而貌似不适用于大批量解决数据,大批量还是举荐 pandas 库,间接加载 csv 文件。
Jsonlines 库
微信小程序开发能够用用,微信云开发应用的是 json lines 格局,算是 json 的变体,转换起来还是有些麻烦的,要本人写一下,用这个能够略微节俭点工夫精力。
PyPinyin 库
用来把汉字转换拼音的,须要本人写一个函数,把转换好的拼音拼接起来,否则是一个字一个拼音,是数组格局。