关于机器学习:MindSpore损失函数nnSoftmaxCrossEntropyWithLogits-解析

对于Softmax机器学习中有一个经典的办法：逻辑回归(Logistic Regression)。它属于一种有监督学习(Supervised Learning)办法。逻辑回归输入的范畴为0-1的值，示意概率，并根据概率的大小将样本归类，其中包含二分类问题与多分类问题。二分类逻辑回归模型输入一个值，该值用于示意样本属于其中一类的概率，多分类逻辑回归模型的输入后果为所有类别的概率分布。在多分类深度神经网络中，在输入层加上Softmax，使得输入后果为0~1的向量，合为1，示意一种概率分布。此时概率最大的项作为分类预测的类别。Softmax便是沿用了逻辑回归的办法。
具体内容可参考：二分类逻辑回归与多分类逻辑回归的公式推导。2. 穿插熵穿插熵（Cross Entropy）实质上是用来掂量两个概率分布的相似性：“… the cross entropy is the average number of bits needed to encode data coming from a source with distribution p when we use model q …”— Page 57, Machine Learning: A Probabilistic Perspective, 2012.穿插熵能够用来评估两个概率事件P和Q的相似性计算，公式如下H(P,Q) = – \sum_x^X P(x) * log(Q(x))H(P,Q)=–x∑XP(x)∗log(Q(x))3. 分类工作损失函数分类工作的损失函数，就是计算输入后果的预测分类与给定标签的误差，该误差越小越好。简略来说，对于二分类工作，如果给定的标签是1，则模型的输入值越靠近1越好；若标签为0，则模型输入值越靠近于0越好。换句话说，若标签为1，则最大化概率P(y_i =1)P(yi=1)。穿插熵(Cross Entropy)能够掂量两个概率分布之间的间隔的，Softmax能把所有转换成概率分布。那么天然二者一起应用能够用于分类工作的损失函数。依据穿插熵的定义，因为一个样本只有一个标签，即给定标签只存在一个P(x)=1P(x)=1，其余值为0，不难得出穿插熵损失函数计算公式：loss(x, c) = -log(\frac{e^{x_c}}{\sum_j^ne^{x_j}}) = -x_c + log({\sum_j^ne^{x_j}})loss(x,c)=−log(∑jnexjexc)=−xc+log(j∑nexj)其中，n示意分类标签的个数，x为长度n的向量，示意预测每个标签的概率值，c是实在标签对应的编号地位，取值范畴[0,n-1]。4. nn.SoftmaxCrossEntropyWithLogits的应用SoftmaxCrossEntropyWithLogits接口就是分类工作的穿插熵损失函数实现，接口参数阐明见官网文档。上面介绍如何应用SoftmaxCrossEntropyWithLogits。sparse=Fasle，示意输出参数labels与输出参数shape雷同，给出了每个label对应的值。from mindspore import Tensor, nn
import numpy as np
import mindspore
x = Tensor(np.array([[1, 2, 3]]),mindspore.float32)
y1 = Tensor(np.array([[0, 1, 0]]), mindspore.float32)
loss_false = nn.SoftmaxCrossEntropyWithLogits(sparse=False)

print(“x shape:”, x.shape)
print(“y1 shape:”, y1.shape)
out1 = loss_false(x, y1)

print(“sparse false:”, out1)

def softmax_cross_entropy(x, c):

exps = np.exp(x)
return -x[c] + np.log(np.sum(exps))

x = np.array([1,2,3])
c = 1
out3 = softmax_cross_entropy(x, c)
print(“numpy:”, out3)
输入后果如下x shape: (1, 3)
y1 shape: (1, 3)
sparse false: [1.4076059]
numpy: 1.4076059644443801
sparse=true时，输出y是一维，示意真标签对应的地位from mindspore import Tensor, nn
import numpy as np
import mindspore

x = Tensor(np.array([[1, 2, 3]]),mindspore.float32)
y2 = Tensor(np.array([1]), mindspore.int32) # 编号1标签为真
loss_true = nn.SoftmaxCrossEntropyWithLogits(sparse=True)
print(“x shape:”, x.shape)
print(“y2 shape:”, y2.shape)
out2 = loss_true(x, y2)
print(“sparse true:”, out2)
输入后果：x shape: (1, 3)
y2 shape: (1,)
sparse true: [1.4076059]
总结：1、因为数据批处理的起因，接口参数logits只反对二维输出，第一维度示意的是batch size；2、sparse 参数取不同的值，对输出labels的shape和type有不同的要求；3、reduction 参数能够指定利用于输入后果的计算形式，例如求均值、求和等。

关于机器学习:MindSpore损失函数nnSoftmaxCrossEntropyWithLogits-解析

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于机器学习:MindSpore损失函数nnSoftmaxCrossEntropyWithLogits-解析

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复