基于Python爬取天眼查网站的企业信息

爬虫简介这是一个在未登录的情况下，根据企业名称搜索，爬取企业页面数据的采集程序注意: 这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多，适合刷解析技能的熟练度，所以高手勿进代码已经上传到GitHub上，有用还请给个星python版本：python2.7编码工具：pycharm数据存储：mysql爬虫结构：广度爬虫爬虫思路：先获取需要采集信息的公司：从数据库中获取获取字段：etid，etname将获取的数据存储的状态表中从状态表中获取数据，并更新状态表拼接初始URL：将etname和初始url进行拼接，获得初始网址将初始url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取请求解析初始一级页面：验证查询的公司是否正确（？？）获取二级页面url将二级url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取请求解析二级页面：获取的信息待定将公司的信息存储到数据库中：建表存储信息所建的表：企业主要信息： et_host_info工商信息： et_busi_info分支机构信息： et_branch_office软件著作权信息： et_container_copyright_info网站备案信息： et_conrainer_icp_info对外投资信息： et_foreign_investment_info融资信息： et_rongzi_info股东信息： et_stareholder_info商标信息： et_trademark_info微信公众号信息：et_wechat_list_info状态表： et_name_status看一下部分的结果图：