关于人工智能:用Python从头开始构建神经网络

作者|Rashida Nasrin Sucky
编译|VK
起源|Medium

神经网络曾经被开发用来模仿人脑。尽管咱们还没有做到这一点，但神经网络在机器学习方面是十分无效的。它在上世纪80年代和90年代很风行，最近越来越风行。计算机的速度足以在正当的工夫内运行一个大型神经网络。在本文中，我将探讨如何实现一个神经网络。

我倡议你仔细阅读“神经网络的思维”局部。但如果你不太分明，不要放心。能够转到实现局部。我把它分解成更小的碎片帮忙了解。

神经网络的工作原理

在一个简略的神经网络中，神经元是根本的计算单元。它们获取输出特色并将其作为输入。以下是根本神经网络的外观：

这里，“layer1”是输出特色。“Layer1”进入另一个节点layer2，最初输入预测的类或假如。layer2是暗藏层。能够应用多个暗藏层。

你必须依据你的数据集和精度要求来设计你的神经网络。

前向流传

从第1层挪动到第3层的过程称为前向流传。前向流传的步骤：

为每个输出特色初始化系数θ。比方说，咱们有100个训练例子。这意味着100行数据。在这种状况下，如果假如有10个输出特色，咱们的输出矩阵的大小是100×10。当初确定$θ_1$的大小。行数须要与输出特色的数量雷同。在这个例子中，是10。列数应该是你抉择的暗藏层的大小。
将输出特色X乘以相应的θ，而后增加一个偏置项。通过激活函数传递后果。

有几个激活函数可用，如sigmoid，tanh，relu，softmax，swish

我将应用一个sigmoid激活函数来演示神经网络。

这里，“a”代表暗藏层或第2层，b示意偏置。

g(z)是sigmoid激活函数：

为暗藏层初始化$\theta_2$。大小将是暗藏层的长度乘以输入类的数量。在这个例子中，下一层是输入层，因为咱们没有更多的暗藏层。
而后咱们须要依照以前一样的流程。将θ和暗藏层相乘，通过sigmoid激活层失去预测输入。

反向流传

反向流传是从输入层挪动到第二层的过程。在这个过程中，咱们计算了误差。

首先，从原始输入y减去预测输入，这就是咱们的$\delta_3$。

当初，计算$\theta_2$的梯度。将$\delta_3$乘以$\theta_2$。乘以“$a^2$”乘以“$1-a^2$”。在上面的公式中，“a”上的上标2示意第2层。请不要把它误会为平方。

用训练样本数m计算没有正则化版本的梯度$\delta$。

训练网络

修改$\delta$。将输出特色乘以$\delta_2$乘以学习速率失去$\theta_1$。请留神$\theta_1$的维度。

反复前向流传和反向流传的过程，并不断更新参数，直到达到最佳老本。这是老本函数的公式。只是揭示一下，老本函数表明，预测离原始输入变量有多远。

如果你留神到的话，这个老本函数公式简直和逻辑回归老本函数一样。

神经网络的实现

我将应用Andrew Ng在Coursera的机器学习课程的数据集。请从以下链接下载数据集：

https://github.com/rashida048…

上面是一个逐渐实现的神经网络。我激励你本人运行每一行代码并打印输出以更好地了解它。

首先导入必要的包和数据集。

import pandas as pd
import numpy as np
xls = pd.ExcelFile('ex3d1.xlsx')
df = pd.read_excel(xls, 'X', header = None)

这是数据集的前五行。这些是数字的像素值。

在这个数据集中，输出和输入变量被组织在独自的excel表格中。让咱们导入输入变量：

y = pd.read_excel(xls, 'y', header=None)

这也是数据集的前五行。输入变量是从1到10的数字。这个我的项目的指标是应用存储在’df’中的输出变量来预测数字。

求输入输出变量的维数

df.shape
y.shape

输出变量或df的形态为5000 x 400，输入变量或y的形态为5000 x 1。

定义神经网络

为了简略起见，咱们将只应用一个由25个神经元组成的暗藏层。

hidden_layer = 25

失去输入类。

y_arr = y[0].unique()#输入:
array([10,  1,  2,  3,  4,  5,  6,  7,  8,  9], dtype=int64)

正如你在下面看到的，有10个输入类。

初始化θ和偏置

咱们将随机初始化层1和层2的θ。因为咱们有三层，所以会有$\theta_1$和$\theta_2$。

$\theta_1$的维度：第1层的大小x第2层的大小

$\theta_2$的维度：第2层的大小x第3层的大小

从步骤2开始，“df”的形态为5000 x 400。这意味着有400个输出特色。所以，第1层的大小是400。当咱们指定暗藏层大小为25时，层2的大小为25。咱们有10个输入类。所以，第3层的大小是10。

$\theta_1$的维度：400 x 25

$\theta_2$的维度：25×10

同样，会有两个随机初始化的偏置b1和b2。

$b_1$的维度：第2层的大小(本例中为25)

$b_1$的维度：第3层的大小(本例中为10)

定义一个随机初始化theta的函数：

def randInitializeWeights(Lin, Lout):
    epi = (6**1/2) / (Lin + Lout)**0.5
    w = np.random.rand(Lout, Lin)*(2*epi) -epi
    return w

应用此函数初始化theta

hidden_layer = 25
output =10
theta1 = randInitializeWeights(len(df.T), hidden_layer)
theta2 = randInitializeWeights(hidden_layer, output)
theta = [theta1, theta2]

当初，初始化咱们下面探讨过的偏置项：

b1 = np.random.randn(25,)
b2 = np.random.randn(10,)

实现前向流传

应用前向流传局部中的公式。

为了不便起见，定义一个函数来乘以θ和X

def z_calc(X, theta):
    return np.dot(X, theta.T)

咱们也将屡次应用激活函数。同样定义一个函数

def sigmoid(z):
    return 1/(1+ np.exp(-z))

当初我将逐渐演示正向流传。首先，计算z项：

z1 =z_calc(df, theta1) + b1

当初通过激活函数传递这个z1，失去暗藏层

a1 = sigmoid(z1)

a1是暗藏层。a1的形态是5000 x 25。反复雷同的过程来计算第3层或输入层

z2 = z_calc(a1, theta2) + b2
a2 = sigmoid(z2)

a2的形态是5000 x 10。10列代表10个类。a2是咱们的第3层或最终输入。如果在这个例子中有更多的暗藏层，在从一个层到另一个层的过程中会有更多的反复步骤。这种利用输出特色计算输入层的过程称为前向流传。

l = 3  #层数
b = [b1, b2]
def hypothesis(df, theta):
    a = []
    z = []
    for i in range (0, l-1):
        z1 = z_calc(df, theta[i]) + b[i]
        out = sigmoid(z1)
        a.append(out)
        z.append(z1)
        df = out
    return out, a, z

实现反向流传

这是反向计算梯度和更新θ的过程。在此之前，咱们须要批改’y’。咱们在“y”有10个类。但咱们须要将每个类在其列中离开。例如，针对第10类的列。咱们将为10替换1，为其余类替换0。这样咱们将为每个类创立一个独自的列。

y1 = np.zeros([len(df), len(y_arr)])
y1 = pd.DataFrame(y1)
for i in range(0, len(y_arr)):
    for j in range(0, len(y1)):
        if y[0][j] == y_arr[i]:
            y1.iloc[j, i] = 1
        else: 
            y1.iloc[j, i] = 0
y1.head()

之前我一步一步地演示了向前流传，而后把所有的都放在一个函数中，我将对反向流传做同样的事件。应用上述反向流传局部的梯度公式，首先计算$\delta_3$。咱们将应用前向流传实现中的z1、z2、a1和a2。

del3 = y1-a2

当初应用以下公式计算delta2：

这里是delta2：

del2 = np.dot(del3, theta2) * a1*(1 - a1)

在这里咱们须要学习一个新的概念。这是一个sigmoid梯度。sigmoid梯度的公式为：

如果你留神到了，这和delta公式中的a(1-a)完全相同。因为a是sigmoid(z)。咱们来写一个对于sigmoid梯度的函数：

def sigmoid_grad(z):
    return sigmoid(z)*(1 - sigmoid(z))

最初，应用以下公式更新θ：

咱们须要抉择一个学习率。我选了0.003。我激励你尝试应用其余学习率，看看它的体现：

theta1 = np.dot(del2.T, pd.DataFrame(a1)) * 0.003
theta2 = np.dot(del3.T, pd.DataFrame(a2)) * 0.003

这就是θ须要更新的形式。这个过程称为反向流传，因为它向后挪动。在编写反向流传函数之前，咱们须要定义老本函数。因为我会把老本的计算也包含在反向流传办法中。但它是能够增加到前向流传中，或者能够在训练网络时将其离开的。

def cost_function(y, y_calc, l):
    return (np.sum(np.sum(-np.log(y_calc)*y - np.log(1-y_calc)*(1-y))))/m

这里m是训练实例的数量。综合起来的代码：

m = len(df)
def backpropagation(df, theta, y1, alpha):
    out, a, z = hypothesis(df, theta)
    delta = []
    delta.append(y1-a[-1])
    i = l - 2
    while i > 0:
        delta.append(np.dot(delta[-i], theta[-i])*sigmoid_grad(z[-(i+1)]))
        i -= 1
    theta[0] = np.dot(delta[-1].T, df) * alpha
    for i in range(1, len(theta)):
        theta[i] = np.dot(delta[-(i+1)].T, pd.DataFrame(a[0])) * alpha
    out, a, z = hypothesis(df, theta)
    cost = cost_function(y1, a[-1], 1)
    return theta, cost

训练网络

我将用20个epoch训练网络。我在这个代码片段中再次初始化theta。

theta1 = randInitializeWeights(len(df.T), hidden_layer)
theta2 = randInitializeWeights(hidden_layer, output)
theta = [theta1, theta2]
cost_list = []
for i in range(20):
    theta, cost= backpropagation(df, theta, y1, 0.003)
    cost_list.append(cost)
cost_list

我应用了0.003的学习率并运行了20个epoch。然而请看文章末提供的GitHub链接。我有试着用不同的学习率和不同的epoch数训练模型。

咱们失去了每个epoch计算的老本，以及最终更新的θ。用最初的θ来预测输入。

预测输入并计算精度

只需应用假如函数并传递更新后的θ来预测输入：

out, a, z = hypothesis(df, theta)

当初计算一下准确率，

accuracy= 0
for i in range(0, len(out)):
    for j in range(0, len(out[i])):
        if out[i][j] >= 0.5 and y1.iloc[i, j] == 1:
            accuracy += 1
accuracy/len(df)

准确率为100%。完满，对吧？但咱们并不是始终都能失去100%的准确率。有时取得70%的准确率是很好的，这取决于数据集。

祝贺！你刚刚开发了一个残缺的神经网络！

以下是残缺工作代码的GitHub链接：

https://github.com/rashida048…

原文链接：https://medium.com/towards-ar…

欢送关注磐创AI博客站：
http://panchuang.net/

sklearn机器学习中文官网文档：
http://sklearn123.com/

欢送关注磐创博客资源汇总站：
http://docs.panchuang.net/

关于人工智能:用Python从头开始构建神经网络

神经网络的工作原理

前向流传

反向流传

训练网络

神经网络的实现

更多文章

未能装载“software”。(com.apple.DiskManagement.disenter错误49223。- macosx catalina系统磁盘挂载出错解决办法

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能