乐趣区

基于Python爬取天眼查网站的企业信息

爬虫简介
这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序
注意: 这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,适合刷解析技能的熟练度,所以高手勿进
代码已经上传到 GitHub 上,有用还请给个星
python 版本:python2.7
编码工具:pycharm
数据存储:mysql
爬虫结构:广度爬虫
爬虫思路:

先获取需要采集信息的公司:

从数据库中获取
获取字段:etid,etname
将获取的数据存储的状态表中
从状态表中获取数据,并更新状态表

拼接初始 URL:

将 etname 和初始 url 进行拼接,获得初始网址
将初始 url 放到一个列表中,获取 HTML 的时候如何出错,将出错的 url 放到另一个列表中,进行循环获取

请求解析初始一级页面:

验证查询的公司是否正确(??)
获取二级页面 url
将二级 url 放到一个列表中,获取 HTML 的时候如何出错,将出错的 url 放到另一个列表中,进行循环获取

请求解析二级页面:
获取的信息待定

将公司的信息存储到数据库中:

建表
存储信息

所建的表:

企业主要信息:et_host_info
工商信息:et_busi_info
分支机构信息:et_branch_office
软件著作权信息:et_container_copyright_info
网站备案信息:et_conrainer_icp_info
对外投资信息:et_foreign_investment_info
融资信息:et_rongzi_info
股东信息:et_stareholder_info
商标信息:et_trademark_info
微信公众号信息:et_wechat_list_info
状态表:et_name_status

看一下部分的结果图:

退出移动版