关于前端:python-Scrapy爬取天气预报零基础的你也可以快速上手

目标

写一个真正意义上一个爬虫，并将他爬取到的数据别离保留到 txt、json、曾经存在的 mysql 数据库中。

指标剖析：

初学者有什么不懂的能够私信我——我刚整顿了一套 2021 最新的 0 根底入门教程，自私分享，获取办法：关注小编 CSDN，发私信：【学习材料】即可获取，内附：开发工具和安装包，以及零碎学习路线图。

数据的筛选：

咱们应用 chrome 开发者工具，模仿鼠标定位到绝对应地位:

能够看到咱们须要的数据，全都包裹在

这样咱们就曾经将筹备工作做完了。

看一下以后的目录：

编写 items.py:

这次咱们来先编写 items, 非常的简略，只须要将心愿获取的字段名填写进去：

编写 Spider:

这个局部使咱们整个爬虫的外围!!

次要目标是：

将 Downloader 发给咱们的 Response 里筛选数据，并返回给 PIPELINE 解决

上面咱们来看一下代码：

编写 PIPELINE：

咱们晓得，pipelines.py 是用来解决收尾爬虫抓到的数据的，

个别状况下，咱们会将数据存到本地：

文本模式：最根本的存储形式

json 格局：不便调用

数据库：数据量比拟大时抉择的存储形式

TXT（文本）格局：

json 格局数据：

咱们想要输入 json 格局的数据，最不便的是在 PIPELINE 里自定义一个 class：

数据库格局（mysql）:

Python 对市面上各种各样的数据库的操作都有良好的反对，所以想学的同学，有必要听一下这位老师的课、支付 python 福利奥，想学的同学能够到梦雅老师的围鑫（同音）：前边一组是：mengy , 后边一组是：7762, 把以上两组字母依照先后顺序组合起来即可，她会安顿学习的。

然而当初个别比拟罕用的收费数据库 mysql。

在本地装置 mysql：

linux 和 mac 都有很弱小的包管理软件，如 apt，brew 等等

window 能够间接去官网下载安装包。

因为我是 Mac，所以我是说 Mac 的装置形式了。

来看一下 weather 表长啥样：

最初咱们编辑与一下代码：

编写 Settings.py

咱们须要在 Settings.py 将咱们写好的 PIPELINE 增加进去，

scrapy 才可能跑起来

这里只须要减少一个 dict 格局的 ITEM_PIPELINES，

数字 value 能够自定义，数字越小的优先解决

让我的项目跑起来：

后果展现:

文本格式：

json 格局：

数据库格局：

这次的例子就到这里了，次要介绍如何通过自定义 PIPELINE 来将爬取的数据以不同的形式保留。