共计 940 个字符,预计需要花费 3 分钟才能阅读完成。
x-crawl
x-crawl 是一个灵便的 Node.js 多功能爬虫库。灵便的应用形式和泛滥的性能能够帮忙您疾速、平安、稳固地爬取页面、接口以及文件。
如果你也喜爱 x-crawl,能够给 x-crawl 存储库 点个 star 反对一下,感激大家的反对!
GitHub: https://github.com/coder-hxl/x-crawl
🚨 重大扭转
指纹降级:
- 进阶写法的 fingerprint 改名为 fingerprints,为数组写法,外面寄存 DetailTargetFingerprintCommon 类型的对象,不便定制。外部会将外面的对象随机调配给指标。
- crawlPage 的指纹选项调整:进阶写法和具体指标写法的指纹配置的最大宽高改为可选项。
- 代理降级:创立爬虫实例、进阶写法以及具体指标写法的 proxy 更改为对象写法, 领有 urls、switchByHttpStatus 以及 switchByErrorCount 这三个属性,urls 能够设置多个代理 URL,外部默认先采纳第一个,switchByHttpStatus 设置遇到哪些不合乎的响应状态码须要切换代理,switchByErrorCount 设置像超时等谬误时达到多少次须要切换代理。该代理轮换性能须要配合谬误重试能力应用。
- 返回值类型调整:CrawlCommonRes、CrawlPageSingleRes、CrawlDataSingleRes 以及 CrawlFileSingleRes 别离更名为 CrawlCommonResult、CrawlPageSingleResult、CrawlDataSingleResult 以及 CrawlFileSingleResult
🚀 特色
- 能够通过在选项设置为 null 勾销下级对立设置的配置。
- DetailTargetFingerprintCommon 里的 userAgent 选项改写对象写法,并容许定制外面的主版本、次版本以及订正号的最大值和最小值。每个爬取指标都会获取一个新的 userAgent。
- 爬取后果新增 proxyDetails 属性,记录代理状态。
- 指纹配置的 mobile 选项增加 ‘random’ 属性值,容许由外部随机决定。
- 终端提示信息进行简化以及色彩调整。
🐞 破绽修复
- 在 linux 零碎上无奈创立多级不存在的文件夹。
正文完