scrapy爬取Drupal网站，提示404错误

作者：

在

最近在学习Python的爬虫。以前坚持用nodejs做爬虫。前两天闲得无聊，在慕课上看了下scrapy的课程。然后发现这个框架的设计真模块化。所以就开始动手用scrapy爬取一些东西。然后我的目标网站是个drupal做的。分页抓取的时候，首页是正常的，爬取第二页的时候，大概率是抛错提示：404，要么就是给我返回了一些脏数据。
这个网站还真是老谋深算啊。然后我仔细分析了下网站的请求头。然后加上了如下两条，请求就正常了：
request.headers[‘accept’] = ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8’
request.headers[‘cache-control’] = ‘no-cache’

看来还是得注意请求头的细节。

python scrapy

发表回复取消回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。

scrapy爬取Drupal网站，提示404错误

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

scrapy爬取Drupal网站，提示404错误

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复