共计 2299 个字符,预计需要花费 6 分钟才能阅读完成。
作者 |Andre Ye
编译 |Flin
起源 |towardsdatascience
通常,数据科学家会建设一个图像识别模型,察看其准确性,如果足够高,就示意工作实现了。自从我 13 岁开始学习机器学习,我就始终不明确这一点。为什么要花费所有的工夫来建设最好的模型——只是为了满足于一个数字?
在本文中,我将提供代码并领导你如何通过构建与模型交互的拍照接口来真正实现我的项目。
装置 cv2(OpenCV)
咱们将应用的图像库是 cv2。因为 cv2 不能在 Kaggle 这样的在线平台上工作,所以它必须在你的计算机上本地实现。然而,模型的权重依然能够在 Kaggle 上进行训练,以.h5 文件的模式下载 (基于 Keras/TensorFlow) 并加载。
在 Anaconda 或命令提示符中键入
conda create -n opencv python=3.6
这将在 Python 版本 3.6 中创立一个名为 opencv 的新环境,能够用正在应用的任何版本替换它。
下一步,输出
pip install opencv-python
你曾经胜利装置了 cv2! 当初你能够开始拍照了。
用 CV2 拍照
首先,导入库。
import cv2
接下来,咱们必须创立一个视频捕捉实例。你能够测试实例是否可能连贯到你的相机(如果没有,请查看你的设置以确保应用程序能够拜访它)。
cap = cv2.VideoCapture(0)
if not (cap.isOpened()):
print("Video device not connected.")
最初,是时候拍照了。如果要管制拍摄照片的工夫,第一行将指定任意变量和输出。除非输出了某些内容(如按“回车”),而后下一行开始拍照,否则程序无奈持续。拍摄图像时,你可能会看到网络摄像头指示灯很快呈现。第三行敞开连贯,第四行销毁拜访相机的所有实例。
arb = input('Press enter to take picture.')
ret, frame = cap.read()
cap.release()
cv2.destroyAllWindows()
图像中的数据存储在 frame
中。能够应用以下代码将其转换为数组:
cv2_im = cv2.cvtColor(frame,cv2.COLOR_BGR2RGB)
调用 cv2_im.shape
时,输入为(480640,3)。因而,图像(对于我的相机)是 480×640 像素(3 示意“深度”, 每个像素中有三个值阐明创立最终像素色彩须要蕴含红色、绿色和蓝色)。
当初图像已转换为数组,matplotlib 的 imshow()能够显示它。
import matplotlib.pyplot as plt
plt.imshow(cv2_im)
plt.show()
残缺代码:
import cv2
import matplotlib.pyplot as plt
cap = cv2.VideoCapture(10)
if not (cap.isOpened()):
print("Video device unconnected.")
arb = input('Press enter to take picture.')
ret, frame = cap.read()
cap.release()
cv2.destroyAllWindows()
cv2_im = cv2.cvtColor(frame,cv2.COLOR_BGR2RGB)
plt.imshow(cv2_im)
plt.show()
格式化为模型规范
卷积神经网络只承受固定大小的图像,例如(100,100,3)。有几种办法能够做到这一点。
为了放弃图像的比例长度,能够尝试裁剪图像。
个别语法是:
plt.imshow(cv2_im[y_upper_bound:y_lower_bound,x_lower_bound:x_higher_bound])
其中“upper”和“lower”由图像上的地位确定(y
的“upper”示意图像的上方,x
的“upper”示意图像的右侧)。
例如,
plt.imshow(cv2_im[100:400,100:400])
这里把照片裁剪成正方形。
然而,尺寸依然是 300×300。为了解决这个问题,咱们将再次应用 Pillow:
pil_image = Image.fromarray(cv2_im[100:400,100:400])
width = 100
height = 100
pil_image = pil_image.resize((width,height), Image.ANTIALIAS)
NumPy 主动将 Pillow 图像转换为数组。
import numpy as np
cv2_im_new = np.array(pil_image)
查看新图像:
plt.imshow(cv2_im_new)
好多了!图像的新形态是(100,100,3), 非常适合咱们的模型。
在模型中运行
当初咱们有了 NumPy 数组,只需将其传递到模型中即可。
model.predict(cv2_im_new)
基于此,通过一些手动编码来标记图像的实在标签,能够在 title 中标记它们:
plt.imshow(cv2_im_new)
plt.title('Hand Gesture:'+classification)
谢谢浏览!
在本教程中,你学习了如何实现一个简略的拍照界面,以查看你的机器学习模型的理论应用程序。
原文链接:https://towardsdatascience.co…
欢送关注磐创 AI 博客站:
http://panchuang.net/
sklearn 机器学习中文官网文档:
http://sklearn123.com/
欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/