共计 1508 个字符,预计需要花费 4 分钟才能阅读完成。
数据分析是 Python 编程广泛应用的畛域之一,数据分析员借助 Python 语法简略清晰、利用范畴宽泛的个性,通过爬虫、整合数据等多样化的依赖与函数,进一步提高数据分析的能力与效率。
在这篇教程中,同学将整合之前所学习的 Python 爬虫技巧,进一步学习如何将所爬取的数据贮存到 CSV 文件中。
学习 Python 爬虫,手把手通过 Python 入门爬取网页信息:
https://zhuanlan.zhihu.com/p/…
什么是 CSV 文件?
CSV 即逗号分隔值(Comma Separated Values)的缩写,是一种罕用于贮存表格数据的文件格式。这种文件格式在机器学习中非常常见,同时也能通过 Excel 等常见的表格处理软件关上。在 Python 编程中,程序员只需借助 csv 和 pandas 依赖即可将数据贮存为 CSV 格局,供数据分析应用。
此次的教程将应用 Lightly 进行实操解说,同学们只需将我的项目复制到个人账户中,即可关上我的项目中 WebAnalyser.py 文件,应用浏览器在线编码:https://538cd3972a-share.ligh…
如何关上并编辑别人用 Lightly 分享的我的项目?
装置依赖
此次教程所需的依赖包含:requests、bs4、csv 和 pandas。通过 Lightly 学习的小伙伴可间接在我的项目页面中,通过 import 导入依赖,再将鼠标悬浮至相应的依赖名称,一键装置缺失依赖。
import requests
from bs4 import BeautifulSoup
import csv
import pandas as pd
应用 BeautifulSoup 查找所需的材料
装置好依赖后,咱们能够通过 requests 和 beautifulsoup 获取 HTML 代码,并从代码中查找所需的内容。
开启 CSV 文件
开启 CSV 文件的 CSV 与 pandas 代码别离如下:
# 建设 csv 文件
csvfile = open('pythonjobs.csv', 'w+')
# 应用 pandas 定义数据框架
df = pd.DataFrame(columns=['Title', 'Company', 'Location', 'Link'])
‘csvfile’‘df’等变量名称可随便替换,pythonjobs.csv 等文件名称、columns 变量内的表格题目也可随表格内容适当替换。
写入 CSV 文件
开启 CSV 文件的后行工作实现后,即可通过以下代码,筹备将数据内容写入文件中:
# 启用 csv 写入程序
writer = csv.writer(csvfile)
而后联合 Python 爬虫教程所学习的常识,进一步欠缺所写入的内容:
敞开 CSV 文件
确认所有内容写入后,即可再次通过代码敞开 CSV 文件,整个爬虫 + 导出 CSV 的 Python 程序便实现了:
df.to_csv('pythonjobs.csv') # 输入为 csv 文件
csvfile.close() # 敞开 csv 文件
在 Lightly IDE 右上角点击运行程序后,即可在左侧的我的项目栏中找到已生成的 pythonjobs.csv 文件:
用户也能够右键下载文件,在 Excel 中查看:
Excel 中的成果:
Python 数据分析我的项目代码:https://538cd3972a-share.ligh…
此次的 Python 爬虫与数据分析教程到此,欢送留言你的疑难以及将来想更深刻理解的内容,也欢送浏览 Lightly 往期的 Python 文章:
Lightly: 新一代的 Python IDE
学习 Python 爬虫,手把手通过 Python 入门爬取网页信息
TeamCode 官网 | www.teamcode.com
Lightly 官网 | lightly.teamcode.com