关于microsoft:微软Microsoft-Azure-机器学习工作室的案例之Image-Classification-using-DenseNet

30次阅读

共计 6890 个字符,预计需要花费 18 分钟才能阅读完成。


Microsoft Azure Machine Learning Studio 是微软弱小的机器学习平台,在设计器中,微软内置了 15 个场景案例,但网上仿佛没有对这 15 个案例深度刨析的剖析材料,所以我就打算写一个系列来实现。

既然是深度刨析,就不再是简略的介绍操作,而是深刻每一个细节,宁愿适度具体扩大,也不简略扫过。


微软 MVP 实验室研究员

王豫翔,Leo

微软圈内人称王公子。微软 10 年 +MVP,大龄程序员。目前外围工作是应用微软 AI 技术设计能够落地的解决方案,也就是写 PPT。尽管酷爱代码,但只有午夜时候才是自在敲代码的工夫。喜爱微软技术,不喜爱无脑照抄。


这次咱们刨析的案例是:应用 DenseNet 进行的图像分类

准备常识

▌PIL

Python Image Library,是 python 的第三方图像处理库,PIL 库反对图像存储,显示和解决,简直可能解决简直所有的图片格式,所以曾经算得上是 Python 平台事实上的图像处理规范库了。然而因为 PIL 仅反对到 Python 2.7,所以在 3.X Python 下,你应该应用 PIL 的硬分叉 Pillow,因为 Pillow 兼容 PIL 的绝大多数语法同时因为 PIL 的微小影响力,所以咱们个别还是叫 PIL 图片解决。还有一点要留神 Pillow 和 PIL 不能共存在雷同的环境中。

应用 PIL 能够帮咱们对训练样本进行裁减,这意思就是应用 PIL 库对样本文件随机调整大小的裁剪、随机裁剪、随机程度翻转、随机垂直翻转、随机旋转、随机仿射、随机灰度、随机透视、随机擦除。

▌DenseNet

密集连贯的卷积网络(Densely Connected Convolutional Networks),一种监督学习的分类算法。在 DenseNet 呈现之前,CNN 的进化个别通过层数的加深(ResNet)或者加宽(Inception)的思维进行,。2017 年的 DenseNet 脱离了加深网络层数(ResNet)和加宽网络结构(Inception)来晋升网络性能的定式思维, 从特色的角度思考, 通过特色重用和旁路(Bypass)设置, 既大幅度缩小了网络的参数量, 又在肯定水平上缓解了梯度沦亡(gradient vanishing)问题的产生。联合信息流和特色复用的假如,DenseNet 当之无愧成为 2017 年计算机视觉顶会(CVPR)的年度最佳论文(Best Paper)。

简略的说,在 DenseNet 之前,有一个问题:有没有一种办法能够让网络又深梯度又不会隐没?

DenseNet 给出了一个简略优雅的答案:间接通过将后面所有层与前面的层建设密集连贯来对特色进行重用来解决这个问题。

作者次要提出了四种网络架构别离是 DenseNet121、DenseNet169、DenseNet201 以及 DenseNet264,当初曾经有了大略 11 中网络架构,densenet121, densenet161, densenet169, densenet201, resnet18, resnet34, resnet50, resnet101, resnet152, vgg16, vgg19。Microsoft Azure Machine Learning Studio 提供的是原始恶 4 种网络结构,个别咱们抉择 DenseNet201 或者 DenseNet169。

▌PyTorch

pytorch 是一个基于 Python 的科学计算包,它次要有两个用处:

  • 相似于 Numpy 然而能利用 GPU 减速
  • 一个非常灵活和疾速用于深度学习的钻研平台

所以说 PyTorch 既能够看作退出了 GPU 反对的 numpy,同时也能够看成一个领有主动求导性能的弱小的深度神经网络。PyTorch 的长处到底是啥呢?PyTorch 不仅仅是定义网络结构简略,而且还很直观灵便。动态图的网络定义都是申明式的,而动态图能够随便的调用函数。

PyTorch 更有利于钻研人员、爱好者、小规模我的项目等疾速搞出原型。而 TensorFlow 更适宜大规模部署,特地是须要跨平台和嵌入式部署时。

深入分析

这套案例一共十二个工作节点,但其中有两组五个节点是一样的。这个案例种不须要咱们进行编码,但提供了咱们对于图片分类训练的最佳实际,值得咱们认真理解。咱们一一剖析每一个节点中值得关注的细节和外围信息。

▌Animal Images Dataset

节点这个节点是数据的输出,外围有两个信息

  • Datastore name:azureml_globaldatasets 是一个链接,点击能够跳转到数据存储的地位
  • Relative path:形容在 Datastore 中以后文件的地位,默认是 Images/Animals_Images_Dataset

点击 azureml_globaldatasets 将跳转到 Datastore 浏览器,您能够在这个浏览器下察看到您存储的数据。大抵的界面如下

点击这些图片能够预览

  • Cat:前缀为 0 的是各种喵星人的玉照,各种色彩,各种卖萌。其中还有一只和人类一起同框的一脸诧异的彩色喵星人。(10 张图片)
  • Dog:前缀为 1 的是汪星人,同样是各种姿势各种萌。(10 张图片)
  • Frog:前缀为 2 的生物以我肤浅的生物常识我一下子无奈演绎,不晓得是青蛙,还是癞蛤蟆还是蟾蜍。反正就是蛙类生物就行了。(10 张图片)

共计一共 30 张图片样本。这些文件在存储的时候是以如下命名构造形式存储:

Your_image_folder_name/Category_1/xxx.png
Your_image_folder_name/Category_1/xxy.jpg
Your_image_folder_name/Category_1/xxz.jpeg

Your_image_folder_name/Category_2/123.png
Your_image_folder_name/Category_2/nsdf3.png
Your_image_folder_name/Category_2/asd932_.png

文件夹的名称被视为图像分类等工作的标签。目前反对“.jpg”,“.jpeg”,“.png”,“.ppm”,“.bmp”,“.pgm”,“.tif”,“.tiff”,“.webp”类型文件,能够在一个文件夹中领有多种类型的图像。不用在每个类别文件夹中蕴含雷同数量的图像。

对了,你还能够应用扩大名为“.zip”,“.tar”,“.gz”和“.bz2”的文件夹或压缩文件。

▌Convert to Image Directory 节点

将图像数据集转换为“图像目录”数据类型,这是 Azure 机器学习设计器中的图像分类等与图像相干的工作中的标准化数据格式。这个节点是把所有的图片文件放到一个目录下,不在通过目录名称将图片分类

但会用 images.lst 的文件形容了图片的标签,相似这样的信息

{"image_info": {"file_name": "image/1_134.jpg"}, "category": "dog", "id": 134}
{"image_info": {"file_name": "image/0_91.jpg"}, "category": "cat", "id": 91}
{"image_info": {"file_name": "image/0_74.jpg"}, "category": "cat", "id": 74}
{"image_info": {"file_name": "image/0_60.jpg"}, "category": "cat", "id": 60}
{"image_info": {"file_name": "image/0_14.jpg"}, "category": "cat", "id": 14}
{"image_info": {"file_name": "image/1_197.jpg"}, "category": "dog", "id": 197}
{"image_info": {"file_name": "image/1_172.jpg"}, "category": "dog", "id": 172}

这个工作你能够看成是 Convert to Image Directory 组件将指定地位的图片读取并输出给之后的解决。

▌Split Image Directory 节点

Split Image Directory 节点有两个,散布用于训练模型和验证

  • 第一次拆分:将 90% 的样本用于训练,将 10% 的样本用于验证。拆分后用于训练的文件有 29 张图片,用于验证的图片有 3 张
  • 第二次拆分:将用于训练的样本再次拆分,仍然还是 90% 用于训练,10% 用于验证。拆分后用于训练的文件有 24 张图片,用于验证的图片有 3 张

这两次拆分十分重要,请认真了解两次拆分的目标。通过这两次拆分,真正最初用于测试的样本占比在 81%。

▌Init Image Transformation 节点

初始化图像转换是一个十分重要的工作,因为采集大量的图片样本是一个老本很高的工作,所以通过将 PIL 图片做各种变形转换,相当于咱们又给样本集退出了很多样本。比方咱们对原始图片进行放大,放大,裁剪局部,旋转,变成黑白等等。

要留神的是,Init Image Transformation 对咱们方才拆分的三份样本都做了转换,这样咱们就失去了很多新的样本。图像转换就是应用 PIL 帮忙咱们实现。对图像做大量随机转换,是图像机器学习种重要初始化工作, 图片样本进行了大量的裁减后才提交给 DenseNet 训练。

  • 调整大小(Resize):将输出 PIL 图像的大小调整为给定大小, 如果抉择“True”,则能够在 Size 中指定所需的输入图像大小,默认状况下为 256。
  • 居中裁剪(Center crop):如果抉择“True”,则能够在裁剪大小(Crop size)中指定所需的作物输入图像大小,默认是 224。
  • 边框填充(Pad):如果抉择 True:则能够在“Padding”中的每个边框上指定填充要增加的像素数。
  • 色彩抖动(Color jitter):指定是否随机更改图像的亮度、对比度和饱和度。
  • 灰度(Grayscale),指定是否将图像转换为灰度。
  • 随机调整大小 (Random resized crop): 对于随机调整大小的裁剪,指定是否将给定的 PIL 图像裁剪为随机大小和纵横比。生成原始大小的随机大小(范畴从 0.08 到 1.0)和原始纵横比的随机纵横比(范畴从 3/4 到 4/3)的裁剪。此裁剪最终调整为给定大小。这通常用于训练 Inception 网络。如果抉择“True:则能够以随机大小指定每个边的预期输入大小。能够在随机裁剪大小(Random resized crop size) 中指定所需的裁剪输入大小, 默认为 256。
  • 随机裁剪 (Random crop),指随机地位裁剪给定的 PIL 图像。如果抉择“True”,则能够在随机裁剪大小(Random crop size) 中指定所需的裁剪输入大小, 默认为 224。
  • 随机程度翻转(Random horizontal flip),指定是否以概率 0.5 随机程度翻转给定的 PIL 图像。
  • 随机垂直翻转(Random vertical flip),指定是否以概率 0.5 随机垂直翻转给定的 PIL 图像。
  • 随机旋转(Random rotation),指定是否按角度旋转图像。如果抉择“True:则能够通过设置随机旋转度(Random rotation degrees)(来指定度范畴,默认状况下为 0。
  • 随机仿射 (Random affine),指定是否对图像进行随机仿射变换以放弃核心不变。如果抉择“True:则能够在随机仿射度数(Random affine degrees) 中指定可供选择的度数范畴,默认状况下为 0。
  • 随机灰度(Random grayscale),指定是否将图像随机转换为概率为 0.1 的灰度。
  • 随机透视(Random perspective),指定是否以概率 0.5 随机执行给定 PIL 图像的透视变换。

▌Apply Image Transformation 节点

咱们存储图片的目录也有了,转换图片的能力也有了,当初能够通过 Apply Image Transformation 指出每一个目录如何应用 Image Transformation。咱们有两种定义

  • 用于训练(For training):被设定的目录里的图形将全面应用 nit Image Transformation 设置的能力。
  • 用于推理(For inference):被设定的目录里的图形将排除随机创立新样本等转换。这是因为随机创立新样本(如“随机程度翻转”)的转换操作用于训练中的数据加强,这应该在推理中删除,因为推理样本须要固定以进行精确的预测和评估。

Apply Image Transformation 节点有三个,散布对应了 Split Image Directory 拆分出的三局部图片。

▌DenseNet 节点

有了准备常识中的 DenseNet 内容,你就非常容易了解这个节点的工作。应用 DenseNet 模型对样本进行训练。

咱们须要抉择

  • 模型名称(Model name):内置了 121、161、169 和 201. 个别咱们能够抉择 201 或者 161.
  • 预训练(Pretrained):指定是否应用在 ImageNet 上事后训练的模型。倡议抉择 True。
  • 内存效率(Memory efficient):定是否应用检查点,检查点的内存效率要高得多,但速度较慢。模式是 False。

总体来说,DenseNet 不须要咱们做很多干涉。

▌Train PyTorch Model 节点

Train PyTorch Model 节点要求三个输出:模型、训练数据集和验证数据集。其中模型只承受 DenseNet 或 ResNet(这一点如果有谬误,我当前会修改)

  • 期间(Epochs)循环拜访整个数据集的次数,默认是 5 次
  • 批大小(Batch size)指定在一个批次中训练的实例数,默认为 16 个。
  • 学习率(Learning rate):将输入误差反向流传给网络参数,以此来拟合样本的输入。实质上是最优化的一个过程,逐渐趋向于最优解。然而每一次更新参数利用多少误差,就须要通过一个参数来管制,这个参数就是学习率, 也称为步长。设置的学习率越小,模型测试就越频繁,而且可能会陷入部分停滞。设置的学习率越大,收敛速度就越快,而且有可能会超过理论最小值。
  • 随机种子(Random seed)能够抉择键入一个整数值,将其用作种子。
  • 耐性(Patience)所有的规范深度学习神经网络构造如全连贯多层感知机都很容易过拟合:当网络在训练集上体现越来越好,错误率越来越低的时候,实际上在某一刻,它在测试集的体现曾经开始变差。如发现 loss 相比上一个 epoch 训练没有降落,则通过 patience 个 epoch 后进行训练。默认是 3

▌Score Image Model 节点

为图像模型评分。这个节点没有须要配置的内容。

▌Evaluate Model 节点

评估模型。评估模型返回的指标取决于您正在评估的模型类型:

  • 分类模型
  • 回归模型
  • 聚类分析模型

咱们先理解下错误率和精度

  • 错误率:分类谬误的样本数占样本总数的比例。
  • 精度:分类正确的样本数占样本总数的比例。
  • 查准率:在所有的预测为正例的后果中,真正例所占的比率。真正例 /(真正例 + 假正例)
  • 召回率:在所有的正例中有多少被胜利预测进去了。真正例 /(真正例 + 假反例)

对应咱们的模型,给出的后果是:

  • 总体准确率(Overall Accuracy):每个类别的每个准确度的平均值
  • 多分类宏观查准率(Micro Precision):所有类别预测对的数目 / 测试集的总数
  • 多分类宏观召回率(micro recall):所有类别预测对的数目 / 测试集的总数宏观查准率(macro precision):该类别预测对的数目 / 预测为该类别的所有数目
  • 宏观召回率(macro recall):该类别预测对的数目 / 该类别所有的数目

结束语

到这里,Image Classification using DenseNet 案例的剖析咱们实现了,在这个过程中,咱们具体的理解到各个节点的外围信息和相干的概念。从数据源、图片分类、图片预处理到训练。也同时接触到了大量的机器学习概念,本篇十分值得举荐作为 Microsoft Azure Machine Learning Studio 和机器学习的入门和深刻读物。

在这之后,我将持续编写其余 Microsoft Azure Machine Learning Studio 案例。每一篇案例都能够独立浏览,因而有些概念会反复呈现在每一篇中。


微软最有价值专家(MVP)

微软最有价值专家是微软公司授予第三方技术专业人士的一个寰球奖项。29 年来,世界各地的技术社区领导者,因其在线上和线下的技术社区中分享专业知识和教训而取得此奖项。

MVP 是通过严格筛选的专家团队,他们代表着技术最精湛且最具智慧的人,是对社区投入极大的激情并乐于助人的专家。MVP 致力于通过演讲、论坛问答、创立网站、撰写博客、分享视频、开源我的项目、组织会议等形式来帮忙别人,并最大水平地帮忙微软技术社区用户应用 Microsoft 技术。

更多详情请登录官方网站:
https://mvp.microsoft.com/zh-cn


点击这里退出微软 MVP~

正文完
 0