关于人工智能:入门用Python进行Web爬取数据为数据科学项目提取数据的有效方法

作者|LAKSHAY ARORA
编译|Flin
起源|analyticsvidhya

总览

Web抓取是一种从网站提取数据的高效办法（取决于网站的规定）
理解如何应用风行的BeautifulSoup库在Python中执行网页抓取
咱们将介绍能够抓取的不同类型的数据，例如文本和图像

介绍

咱们领有的数据太少，无奈建设机器学习模型。咱们须要更多数据！

如果这句话听起来很相熟，那么你并不孤独！心愿取得更多数据来训练咱们的机器学习模型是一个始终困扰人们的问题。咱们无奈在数据迷信我的项目中取得能够间接应用的Excel或.csv文件，对吗？

那么，如何应答数据匮乏的问题呢？

实现此目标最无效，最简略的办法之一就是通过网页抓取。我集体发现网络抓取是一种十分有用的技术，能够从多个网站收集数据。现在，某些网站还为你可能心愿应用的许多不同类型的数据提供API，例如Tweets或LinkedIn帖子。

然而有时你可能须要从不提供特定API的网站收集数据。这就是web抓取能力派上用场的中央。作为数据科学家，你能够编写一个简略的Python脚本并提取所需的数据。

因而，在本文中，咱们将学习Web抓取的不同组件，而后间接钻研Python，以理解如何应用风行且高效的BeautifulSoup库执行Web抓取。

咱们还为本文创立了一个收费课程：

应用Python进行Web爬网简介。这种结构化的格局将帮忙你更好地学习。
- https://courses.analyticsvidh…

请留神，网页抓取要恪守许多准则和规定。并非每个网站都容许用户抓取内容，因而存在肯定的法律限度。在尝试执行此操作之前，请务必确保已浏览网站的网站条款和条件。

3个风行的工具和库，用于Python中的Web爬虫

你将在Python中遇到多个用于Web抓取的库和框架。以下是三种高效实现工作的热门工具：

BeautifulSoup

BeautifulSoup是Python中一个了不起的解析库，可用于从HTML和XML文档进行Web抓取。
BeautifulSoup会自动检测编码并优雅地解决HTML文档，即便带有特殊字符也是如此。咱们能够浏览已解析的文档并找到所需的内容，这使得从网页中提取数据变得快捷而轻松。在本文中，咱们将具体学习如何应用Beautiful Soup构建web Scraper

Scrapy

Scrapy是用于大规模Web抓取的Python框架。它为你提供了从网站中高效提取数据，依据须要进行解决并以你喜爱的构造和格局存储数据所需的所有工具。你能够在这里浏览更多无关Scrapy的信息。
- https://www.analyticsvidhya.c…

Selenium

Selenium是另一个使浏览器自动化的风行工具。它次要用于行业中的测试，但也十分不便进行网页抓取。看看这篇很棒的文章，以理解更多无关应用Selenium进行Web抓取的工作形式的信息。
- https://www.analyticsvidhya.c…

Web爬网的组件

这是形成网页抓取的三个次要组成部分的杰出阐明：

让咱们具体理解这些组件。咱们将通过goibibo网站抓取酒店的详细信息，例如酒店名称和每间客房的价格，以实现此目标：

留神：请始终遵循指标网站的robots.txt文件，该文件也称为漫游器排除协定。这能够通知网络漫游器不要抓取哪些页面。

https://www.goibibo.com/robot…

因而，咱们被容许从指标URL中抓取数据。咱们很快乐去写咱们的网络机器人的脚本。让咱们开始！

第1步：Crawl（抓取）

Web抓取的第一步是导航到指标网站并下载网页的源代码。咱们将应用申请库来执行此操作。http.client和urlib2是另外两个用于发出请求和下载源代码的库。

http.client：https://docs.python.org/3/lib…
urlib2：https://docs.python.org/2/lib…

下载了网页的源代码后，咱们须要过滤所需的内容：

"""
Web Scraping - Beautiful Soup
"""

# importing required libraries
import requests
from bs4 import BeautifulSoup
import pandas as pd

# target URL to scrap
url = "https://www.goibibo.com/hotels/hotels-in-shimla-ct/"

# headers
headers = {
    'User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"
    }

# send request to download the data
response = requests.request("GET", url, headers=headers)

# parse the downloaded data
data = BeautifulSoup(response.text, 'html.parser')
print(data)

步骤2：Parse and Transform（解析和转换）

Web抓取的下一步是将这些数据解析为HTML解析器，为此，咱们将应用BeautifulSoup库。当初，如果你曾经留神到咱们的指标网页，则与大多数网页一样，特定酒店的详细信息也位于不同的卡片上。

因而，下一步将是从残缺的源代码中过滤卡片数据。接下来，咱们将抉择该卡片，而后单击“Inspect Element”选项以获取该特定卡的源代码。你将取得如下内容：

所有卡的类名都雷同，咱们能够通过传递标签名称和属性（如<class>标签）来取得这些卡的列表，其名称如下所示：

# find all the sections with specifiedd class name
cards_data = data.find_all('div', attrs={'class', 'width100 fl htlListSeo hotel-tile-srp-container hotel-tile-srp-container-template new-htl-design-tile-main-block'})

# total number of cards
print('Total Number of Cards Found : ', len(cards_data))

# source code of hotel cards
for card in cards_data:
    print(card)

咱们从网页的残缺源代码中过滤出了卡数据，此处的每张卡都蕴含无关独自酒店的信息。仅抉择酒店名称，执行“Inspect Element”步骤，并对房间价格执行雷同操作：

当初，对于每张卡，咱们必须找到下面的酒店名称，这些名称只能从<p>标签中提取。这是因为每张卡和房价只有一个 < p > 标签和 < class > 标签和类名：

# extract the hotel name and price per room
for card in cards_data:

    # get the hotel name
    hotel_name = card.find('p')

    # get the room price
    room_price = card.find('li', attrs={'class': 'htl-tile-discount-prc'})
    print(hotel_name.text, room_price.text)

步骤3：Store（贮存数据）

最初一步是将提取的数据存储在CSV文件中。在这里，对于每张卡，咱们将提取酒店名称和价格并将其存储在Python字典中。而后，咱们最终将其增加到列表中。

接下来，让咱们持续将此列表转换为Pandas数据框，因为它容许咱们将数据框转换为CSV或JSON文件：

# create a list to store the data
scraped_data = []

for card in cards_data:

    # initialize the dictionary
    card_details = {}

    # get the hotel name
    hotel_name = card.find('p')

    # get the room price
    room_price = card.find('li', attrs={'class': 'htl-tile-discount-prc'})

    # add data to the dictionary
    card_details['hotel_name'] = hotel_name.text
    card_details['room_price'] = room_price.text

    # append the scraped data to the list
    scraped_data.append(card_details)

# create a data frame from the list of dictionaries
dataFrame = pd.DataFrame.from_dict(scraped_data)

# save the scraped data as CSV file
dataFrame.to_csv('hotels_data.csv', index=False)

祝贺！咱们曾经胜利创立了一个根本的网页抓取工具。我心愿你尝试这些步骤，并尝试获取更多数据，例如酒店的等级和地址。当初，让咱们看看如何执行一些常见工作，例如在页面加载时抓取URL，电子邮件ID，图像和抓取数据。

从网页中抓取URL和电子邮件ID

咱们尝试应用网络抓取性能抓取的两个最常见的性能是网站URL和电子邮件ID。我敢肯定你已经参加过须要大量提取电子邮件ID的我的项目或挑战。因而，让咱们看看如何在Python中抓取这些内容。

应用Web浏览器的控制台

假如咱们要跟踪咱们的Instagram关注者，并想晓得勾销关注咱们帐户的人的用户名。首先，登录到你的Instagram帐户，而后单击关注者以查看列表：

始终向下滚动，以便将所有用户名都加载到浏览器内存中的后盾
右键单击浏览器窗口，而后单击“查看元素”
在控制台窗口中，键入以下命令：

urls = $$(‘a’); for (url in urls) console.log ( urls[url].href);

仅需一行代码，咱们就能够找到该特定页面上存在的所有URL：

接下来，将此列表保留在两个不同的工夫戳中，一个简略的Python程序将使你晓得两者之间的区别。咱们将可能晓得勾销了咱们的帐户的用户名！
咱们能够应用多种办法来简化此工作。次要思维是，只需一行代码，咱们就能够一次性取得所有URL。

应用Chrome扩大程序电子邮件提取器

电子邮件提取器是一个Chrome插件，可捕捉咱们以后正在浏览的页面上显示的电子邮件ID

它甚至容许咱们下载CSV或文本文件中的电子邮件ID列表：

BeautifulSoup和正则表达式

仅当咱们只想从一页抓取数据时，以上解决方案才无效。然而，如果咱们心愿对多个网页执行雷同的步骤怎么办？

有许多网站能够通过免费为咱们做到这一点。但这里有个好消息——咱们还能够应用Python编写本人的Web爬虫！让咱们在上面的实时编码窗口中查看操作方法。

https://id.analyticsvidhya.co…://www.analyticsvidhya.com/blog/2019/10/web-scraping-hands-on-introduction-python

在Python中爬取图片

在本节中，咱们将从同一个Goibibibo网页抓取所有图片。第一步是导航到指标网站并下载源代码。接下来，咱们将应用 < img > 标签查找所有图像：

"""
Web Scraping - Scrap Images
"""

# importing required libraries
import requests
from bs4 import BeautifulSoup

# target URL
url = "https://www.goibibo.com/hotels/hotels-in-shimla-ct/"

headers = {
    'User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"
    }

response = requests.request("GET", url, headers=headers)

data = BeautifulSoup(response.text, 'html.parser')

# find all with the image tag
images = data.find_all('img', src=True)

print('Number of Images: ', len(images))

for image in images:
    print(image)

从所有图像标签中，仅抉择src局部。另外，请留神，酒店图片以jpg格局提供。因而，咱们将仅抉择那些：

# select src tag
image_src = [x['src'] for x in images]

# select only jp format images
image_src = [x for x in image_src if x.endswith('.jpg')]

for image in image_src:
    print(image)

当初咱们有了图像URL的列表，咱们要做的就是申请图像内容并将其写入文件中。确保关上文件“ wb”（写二进制文件）模式


image_count = 1
for image in image_src:
    with open('image_'+str(image_count)+'.jpg', 'wb') as f:
        res = requests.get(image)
        f.write(res.content)
    image_count = image_count+1

你还能够按页码更新初始页面URL，并重复申请它们以收集大量数据。

在页面加载时抓取数据

让咱们看一下Steam社区Grant Theft Auto V Reviews的网页。你会留神到网页的残缺内容不会一口气加载。

https://steamcommunity.com/ap…

咱们须要向下滚动以在网页上加载更多内容。这是网站后端开发人员应用的一种称为“提早加载”的优化技术。

然而对咱们来说，问题是，当咱们尝试从该页面抓取数据时，咱们只会失去该页面的无限内容：

一些网站还创立了“加载更多”按钮，而不是无休止的滚动想法。仅当你单击该按钮时，它将加载更多内容。内容无限的问题依然存在。因而，让咱们看看如何抓取这些网页。

导航到指标URL并关上“查看元素网络”窗口。接下来，点击从新加载按钮，它将为你记录网络，如图像加载，API申请，POST申请等的程序。

革除以后记录并向下滚动。你会留神到，向下滚动时，该网页正在发送更多数据的申请：

进一步滚动，你将看到网站发出请求的形式。查看以下URL——仅某些参数值正在更改，你能够通过简略的Python代码轻松生成这些URL：

你须要依照雷同的步骤来抓取和存储数据，办法是将申请一页一页地发送到每个页面。

尾注

这是应用功能强大的BeautifulSoup库对Python中的网络抓取进行的简略且对初学者敌对的介绍。诚实说，当我正在寻找一个新我的项目或须要一个现有我的项目的信息时，我发现网络抓取十分有用。

留神：如果你想以更结构化的模式学习本教程，咱们有一个收费课程，咱们将传授网络抓取BeatifulSoup。你能够在此处查看—— 应用Python进行Web爬网简介。

https://courses.analyticsvidh…

如前所述，还有其余一些库可用于执行Web抓取。我很想听听你更喜爱的库的想法（即便你应用R语言！），以及你对该主题的教训。在上面的评论局部中通知我，咱们将与你分割！

原文链接：https://www.analyticsvidhya.c…

欢送关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官网文档：
http://sklearn123.com/

欢送关注磐创博客资源汇总站：
http://docs.panchuang.net/

关于人工智能:入门用Python进行Web爬取数据为数据科学项目提取数据的有效方法

总览

介绍

目录

3个风行的工具和库，用于Python中的Web爬虫

Web爬网的组件

第1步：Crawl（抓取）

步骤2：Parse and Transform（解析和转换）

步骤3：Store（贮存数据）

从网页中抓取URL和电子邮件ID

应用Web浏览器的控制台

应用Chrome扩大程序电子邮件提取器

BeautifulSoup和正则表达式

在Python中爬取图片

在页面加载时抓取数据

尾注

更多文章

未能装载“software”。(com.apple.DiskManagement.disenter错误49223。- macosx catalina系统磁盘挂载出错解决办法

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能