关于人工智能:使用Flask部署图像分类模型

作者|LAKSHAY ARORA
编译|VK
起源|Analytics Vidhya

概述

理解PyTorch和Flask的详情
学习在PyTorch中建设图像分类模型
理解如何应用Flask部署模型。

介绍

当波及到社交媒体的衰弱运行时，图像分类是一个关键点。依据特定标签对内容进行分类能够代替各种法律法规。它变得很重要，以便对特定的受众群体暗藏内容。

当我在Instagram上浏览时，我常常会遇到一些图片上有“敏感内容”的帖子。我必定你也有。

任何无关人道主义危机、恐怖主义或暴力的图片通常被归类为“敏感内容”。Instagram如何对图片进行分类始终让我很感兴趣。这种一直的好奇心促使我去了解图像分类的过程。

大部分图像是由Instagram部署的图像分类模型检测进去的。此外，还有一个基于社区的反馈循环。这是图像分类最重要的用例之一。

在本文中，咱们将部署一个图像分类模型来检测图像的类别。

什么是模型部署

在典型的机器学习和深度学习我的项目中，咱们通常从定义问题陈说开始，而后是数据收集和筹备，而后是模型构建，对吗？

一旦咱们胜利地构建和训练了模型，咱们心愿它能为最终用户所用。

因而，咱们必须“部署”模型，以便最终用户能够应用它。模型部署是任何机器学习或深度学习我的项目的前期阶段之一。

在本文中，咱们将在PyTorch中构建一个分类模型，而后学习如何应用Flask部署雷同的模型。在咱们进入细节之前，让咱们先简略介绍一下PyTorch。

PyTorch简介

PyTorch是一个基于python的库，它提供了作为深度学习开发平台的灵活性。PyTorch的工作流程与python的科学计算库NumPy十分靠近。

PyTorch被宽泛用于构建深度学习模型。以下是PyTorch的一些重要劣势

易于应用的API–PyTorch API与python一样简略。
Python反对—PyTorch与Python完满集成。
动静计算图——PyTorch为咱们提供了一个框架来构建计算图，甚至在运行时扭转它们。这对于咱们不晓得创立一个神经网络须要多少内存的状况很有价值。

在接下来的章节中，咱们将应用一个预训练的模型来应用PyTorch来检测图像的类别。接下来，咱们将应用Flask进行模型部署。在下一节中，咱们将简要探讨Flask。

什么是Flask？

Flask是一个用Python编写的web应用程序框架。它有多个模块，使web开发人员更容易编写应用程序，而不用放心协定治理、线程治理等细节。

Flask为开发web应用程序提供了多种抉择，并为咱们提供了构建web应用程序所需的工具和库。

在机器上装置Flask和PyTorch

装置Flask简单明了。这里，我假如你曾经装置了python3和pip。要装置Flask，须要运行以下命令：

sudo apt-get install python3-flask

接下来，咱们须要装置PyTorch。运行本文中提供的代码不须要有GPU。

!pip install torch torchvision

就这样！当初让咱们开始一个问题陈说并建设一个模型。

了解问题陈说

让咱们讨论一下问题陈说，咱们想要创立一个蕴含如下文本框的网页（如下所示）。用户在这里输出网址。

这里的工作是从URL中抓取所有图像。对于每个图像，咱们将应用图像分类模型预测图像的类别或类别，并在网页上按类别出现图像。

上面是端到端模型的工作流-

设置我的项目工作流

模型构建：咱们将应用预训练的模型Densenet 121来预测图像类。它能够在PyTorch的torchvision库中找到。这里，咱们的重点不是从头开始构建一个高度准确的分类模型，而是看看如何部署该模型并在web界面中应用它。
创立一个图像Scraper：咱们将应用申请和BeautifulSoup库创立一个web scraper。它将从一个URL下载所有的图像并将其存储，这样咱们就能够对其进行预测。
设计网页模板：咱们还将设计一个用户界面，用户能够提交一个网址，也能够失去后果，一旦计算。
对图像进行分类并发送后果：一旦咱们从用户那里失去查问，咱们将应用该模型预测图像的类别并将后果发送给用户。

上面是咱们刚刚看到的步骤的一个示意：

让咱们讨论一下我的项目所需的所有组成部分：

建设预训练的图像分类模型

咱们将应用预训练的模型Densenet 121对图像进行分类。

你能够在这里下载残缺的代码和数据集。

链接：https://github.com/lakshay-ar...

让咱们从导入一些必须的库开始，并从torchvision库获取densenet121模型。确保将参数“pretrained”增加为True。

# 导入所需的库import jsonimport ioimport globfrom PIL import Imagefrom torchvision import modelsimport torchvision.transforms as transforms# 将参数“pretraining”传递为“True”，应用预训练的权重:model = models.densenet121(pretrained=True)# 切换到模型到“eval”模式:model.eval()

当初，咱们将定义一个函数来转换图像。它将创立一个转换管道并依据须要转换图像。此办法以字节为单位获取图像数据，并对其利用一系列“转换”函数并返回张量。这段代码取自pytorch文档。

# 定义预处理的函数def transform_image(image_bytes):    my_transforms = transforms.Compose([transforms.Resize(255),                                        transforms.CenterCrop(224),                                        transforms.ToTensor(),                                        transforms.Normalize(                                            [0.485, 0.456, 0.406],                                            [0.229, 0.224, 0.225])])    image = Image.open(io.BytesIO(image_bytes))    return my_transforms(image).unsqueeze(0)

当初，预训练的模型返回预测类id的索引。PyTorch曾经为它提供了映射，以便咱们能够看到预测类的名称。你能够在这里下载地图。它有1000个不同的类别。

# 加载由pytorch提供的映射imagenet_class_mapping = json.load(open('imagenet_class_index.json'))

上面是一个示例：

接下来，咱们将定义一个函数来获取图像的类别。为此，咱们将图像的门路作为惟一的参数传递。

首先，它将关上并读取二进制格局的图像，而后对其进行转换。而后将变换后的图像传递给模型，失去预测类。它将应用映射并返回类名。

# 定义函数来取得图片的预测# 它承受参数:图片门路并提供预测作为输入def get_category(image_path):  #以二进制模式读取图像    with open(image_path, 'rb') as file:        image_bytes = file.read()    # 变换图像    transformed_image = transform_image(image_bytes=image_bytes)    # 应用模型来预测类    outputs = model.forward(transformed_image)    _, category = outputs.max(1)    # 返回    predicted_idx = str(category.item())    return imagenet_class_mapping[predicted_idx]

让咱们在一些图像上尝试此函数：

get_category(image_path='static/sample_1.jpeg')## ['n02089973', 'English_foxhound']

get_category(image_path='static/sample_2.jpeg')## ['n11939491', 'daisy']

当初，咱们的模型能够预测图像的类。让咱们从构建图像Scraper开始。

建设一个图像Scraper

在本节中，咱们将构建一个web scraper，它将从提供的URL下载图像。咱们将应用BeautifulSoup库下载图像。你能够自在应用任何其余库或API来提供图像。

咱们将从导入一些必须的库开始。对于咱们将抓取的每个url，将创立一个新目录来存储图像。咱们将创立一个函数get_path，它将返回为该URL创立的文件夹的门路。

# 导入所需的库import requestsfrom bs4 import BeautifulSoupimport osimport timedef get_path(url):    return "static/URL_" + str(url.replace("/","_"))  headers = {    'User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"    }

当初，咱们将定义一个函数get_images。它将首先应用get_path函数创立目录，而后发送对源代码的申请。从源代码中，咱们将应用“img”标签提取源代码。

在此之后，咱们将只抉择jpeg格局的图像。也能够增加png格局的图像。我曾经过滤掉了，因为大多数png格局的图片都是logo。

最初，启动计数器并将带有计数器名称的图像保留到指定的目录中。

# 定义爬取图像并将其存储在目录中的函数def get_images(url):   # get the directory path    path = get_path(url)    try:        os.mkdir(path)    except:        pass    # 从URL申请源代码    response = requests.request("GET", url, headers=headers)    # 通过Beautiful Soup解析数据    data = BeautifulSoup(response.text, 'html.parser')    # 在源代码中找到图像标记    images = data.find_all('img', src=True)    # 从所有的图像标签中提取src    image_src = [x['src'] for x in images]    # 只抉择jpeg    image_src = [x for x in image_src if x.endswith('.jpeg') ]    image_count = 1    # 在指定目录存储图像    for image in image_src:        print(image)        image_file_name = path+'/'+str(image_count)+'.jpeg'         print(image_file_name)        # 以写入二进制模式关上文件并增加图像内容来存储它        with open(image_file_name, 'wb') as f:            res = requests.get(image)            f.write(res.content)        image_count = image_count+1

让咱们试试咱们刚刚发明的scraper！

get_images('https://medium.com/@allanishac/9-wild-animals-that-would-make-a-much-better-president-than-donald-trump-b41f960bb171')

当初，创立了一个新目录，并查看它的外观。咱们在一个中央下载了所有的图片。

留神：倡议仅依据学习目标应用此图像Scraper。始终遵循指标网站的robots.txt文件，也称为机器人排除协定。这会通知网络机器人哪些页面不能爬。

创立网页

咱们将创立两个网页一个是“home.html另一个是“image_class.html”.

“home.html“是默认的，它将有一个文本框，用户能够在其中键入URL。
“image_class.html“将帮忙咱们按类别渲染图像。

1.home.html

咱们须要在home.html文件以收集搜寻容器中的数据。在form标签中，咱们将应用post办法，并且数据通过名为“search”的输出栏传递。

通过这样做，咱们的后端代码将可能晓得咱们收到了一些名为“search”的数据。在后端，咱们须要解决并发送数据。

2.image_class.html

在计算结果时，另一个页面将出现如下后果。本页“image_class.html“将在每次查问时更新。你能够看到咱们在网页上显示了以下信息：

图像类别
图像
所有可用图像类别的频率计数

上面是执行此操作的代码：

def get_picture_html(path, tag):    image_html = """<p> {tag_name} </p> <picture> <img src= "../{path_name}"  height="300" width="400"> </picture>"""    return image_html.format(tag_name=tag, path_name=path)# 定义在html文件中增加列表元素的函数def get_count_html(category, count):    count_html = """<li> {category_name} : {count_} </li>"""    return count_html.format(category_name = category, count_ = count)# 计数def get_value_count(image_class_dict):    count_dic = {}    for category in image_class_dict.values():        if category in count_dic.keys():            count_dic[category] = count_dic[category]+1        else:            count_dic[category] = 1    return count_dic# 函数从image_class字典生成html文件# 键将是图像的门路，而值将是与之关联的类。def generate_html(image_class_dict):    picture_html = ""    count_html = ""        # 循环这些键并将图像增加到html文件中    for image in image_class_dict.keys():        picture_html += get_picture_html(path=image, tag= image_class_dict[image])            value_counts = get_value_count(image_class_dict)        # 循环value_counts并向html文件中增加类的计数    for value in value_counts.keys():        count_html += get_count_html(value, value_counts[value])

下一步是建设Flask我的项目，将这些独自的局部组合起来解决这个挑战。

设置Flask我的项目

咱们在我的项目中实现了以下工作：

图像分类模型工作良好，可能对图像进行分类。
咱们曾经建设了图像Scraper，将下载图像并存储它们。
咱们曾经创立了网页来获取并返回后果。

当初咱们须要将所有这些文件连贯在一起，这样咱们就能够有一个工作我的项目了。

让咱们看看目录构造。

留神：请确保将图像保留在static文件夹和html 文件放在templates文件夹中。Flask只会查找这些名字。如果你扭转这些，你会失去一个谬误。

运行Flask应用程序

Flask应用程序首先将home.html当有人发送图像分类申请时，Flask将检测一个post办法并调用get_image_class函数。

此函数将按以下步骤工作：

首先，它将发送一个申请来下载并存储这些图像。
接下来，它将把目录门路发送到get_prediction.py将计算并以字典模式返回后果的文件。
最初，它将把这个字典发送给generate_html.py，用户将返回生成该文件的输入。

# 导入库from flask import Flask, render_template, request, redirect, url_forfrom get_images import get_images, get_path, get_directoryfrom get_prediction import get_predictionfrom generate_html import generate_htmlfrom torchvision import modelsimport jsonapp = Flask(__name__)# 映射imagenet_class_mapping = json.load(open('imagenet_class_index.json'))# 应用预训练模型model = models.densenet121(pretrained=True)model.eval()# 定义从url获取图像并预测类的函数def get_image_class(path):    # 从URL获取图像并将其存储在给定的门路中    get_images(path)    # 依据所提供的目录预测图像的图像类别    path = get_path(path)    images_with_tags = get_prediction(model, imagenet_class_mapping, path)    # 生成html文件以在咱们预测类之后出现    generate_html(images_with_tags)

一旦以上步骤实现，咱们就能够为用户提供后果。咱们将调用success函数，该函数将渲染image_class.html文件。

# 根页面为"home.html"    @app.route('/')def home():    return render_template('home.html')@app.route('/', methods=['POST', 'GET'])def get_data():    if request.method == 'POST':        user = request.form['search']        # 如果搜寻按钮被点击，调用函数get_image_class        get_image_class(user)        #返回image_class.html        return redirect(url_for('success', name=get_directory(user)))@app.route('/success/<name>')def success(name):    return render_template('image_class.html')if __name__ == '__main__' :    app.run(debug=True)

获取源URL的所有图像的预测

到目前为止，咱们曾经别离对每幅图像进行了预测。当初，咱们将用新参数批改get_category函数来解决这个问题。咱们将传递蕴含多个图像文件的目录门路。

当初，咱们将定义另一个函数get_prediction，它将应用get_category函数并返回字典，其中键将是图像门路，值将是图像类。

稍后，咱们将把这个字典发送给generate_html.py将为咱们创立HTML文件的文件。

# 获取目录中呈现的所有图像的类def get_category(model, imagenet_class_mapping, image_path):    with open(image_path, 'rb') as file:        image_bytes = file.read()    transformed_image = transform_image(image_bytes=image_bytes)    outputs = model.forward(transformed_image)    _, category = outputs.max(1)        predicted_idx = str(category.item())    return imagenet_class_mapping[predicted_idx]# 它将创立一个图像门路和预测类的字典# 咱们将应用该字典生成html文件。def get_prediction(model, imagenet_class_mapping, path_to_directory):    files = glob.glob(path_to_directory+'/*')    image_with_tags = {}    for image_file in files:        image_with_tags[image_file] = get_category(model, imagenet_class_mapping, image_path=image_file)[1]    return image_with_tags

当初，所有的代码文件都筹备好了，咱们只须要将它们与主文件连接起来。

首先，创立一个Flask类的对象，该对象将以以后模块的名称作为参数。route函数将通知Flask应用程序下一步在网页上出现哪个URL。

部署模型的工作

你能够在这里下载残缺的代码和数据集。

链接：https://github.com/lakshay-ar...

当初，咱们运行get_class.py，Flask服务器就能够在 localhost:5000启动

关上web浏览器并转到localhost:5000，你将看到默认主页在那里出现。当初，在文本框中输出任何URL并按search按钮。这可能须要20-30秒，这取决于网址中的图片数量和网速。

让咱们看看部署模型的工作状况。

视频:https://cdn.analyticsvidhya.c...

结尾

在本文中，我简要地解释了模型部署、Pytorch和Flask的概念。

而后咱们深刻理解了应用PyTorch创立图像分类模型并将其与Flask一起部署的过程中波及的各个步骤。我心愿这有助于你构建和部署图像分类模型。

另外，模型被部署在本地主机上。咱们也能够把它部署在云服务上，比方Google Cloud，Amazon，github.io等等，咱们也将在下一篇文章中探讨这一点。

原文链接：https://www.analyticsvidhya.c...

欢送关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官网文档：
http://sklearn123.com/

欢送关注磐创博客资源汇总站：
http://docs.panchuang.net/