关于python爬虫:踩坑记终于怀着忐忑的心情完成了对-python-爬虫扩展库-pyspider-的安装

49次阅读

共计 1438 个字符,预计需要花费 4 分钟才能阅读完成。

在后面的系列文章中,笔者说了一些爬虫入门的相干知识点以及一些比拟根本的爬虫办法和简略的框架应用等。下一个环节我么一起来看看 pyspider 框架。首先,这款框架的装置就非常令人头疼,破费了好几个小时原本要和女朋友聊天的工夫,老王通过一直的踩坑终于装置胜利了,所以,特地记录一下。

1、pyspider 介绍

  • 一个国人编写的弱小的网络爬虫零碎并带有弱小的 WebUI。

  • 采纳 Python 语言编写,分布式架构,反对多种数据库后端,弱小的 WebUI 反对脚本编辑器,工作监视器,我的项目管理器以及后果查看器。

  • http://docs.pyspider.org/en/l…

2、根底装置环境介绍

  • 操作系统:Windows10

  • python 环境:python3.6.8

  • 操作人:老王的小跟班

3、筹备扩大库工具

 1# 因为 phantomjs 官网下载太慢,能够到国内镜像站进行下载
 2
 3http://npm.taobao.org/dist/phantomjs/
 4
 5phantomjs(版本 =2.1.1,反对 javascript 操作)
 6
 7wheel(反对.whl 文件装置)
 8
 9# pycurl-7.43.0.4-cp36-cp36m-win_amd64.whl 下载地址
10
11https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl
12
13pycurl-7.43.0.4-cp36-cp36m-win_amd64.whl(装置 pycurl 扩大库)
14
15wsgidav(版本 =2.4.1)
16
17werkzeug(版本 =0.15)

4、开始装置 pyspider

 1a. 装置 phantomjs
 2
 3# 下载好 phantomjs 之后,解压之后配置好环境变量
 4
 5b. 装置 wheel
 6
 7python -m pip install wheel
 8
 9c. 装置下载好的 pycurl 扩大库
10
11python -m pip install c:/tools/pycurl-7.43.0.4-cp36-cp36m-win_amd64.whl
12
13d. 装置 wsgidav 依赖库
14
15# 先卸载以后高版本
16
17python -m pip uninstall wsgidav
18
19# 装置指定低版本
20
21python -m pip install wsgidav=2.4.1
22
23e. 装置 werkzeug
24
25# 先卸载以后高版本
26
27python -m pip uninstall werkzeug
28
29# 装置指定低版本
30
31python -m pip install werkzeug=0.15
32
33f. 最初装置 pyspider
34
35python -m pip install pyspider

5、启动问题

 1a. 间接启动
 2
 3pyspider all
 4
 5b. 启动中如果呈现始终在 restarting 的状况
 6
 7# 解决方法:关上一个终端,输出命令启动。再关上一个新的终端启动,此时再敞开第一个终端,第二个终端会启动胜利。8
 9# 为什么?我也不晓得,这是在 Google 上找的解决办法。10
11c. 第一次启动的工夫比拟长
12
13d. 启动胜利之后拜访地址
14
15http://localhost:5000
16
17e. 启动之后敞开终端,代表 pyspider 服务也会敞开 

更多精彩返回微信公众号【Python 集中营】,专一于 python 技术栈,材料获取、交换社区、干货分享,期待你的退出~

正文完
 0