关于深度学习:TensorBoard的最全使用教程看这篇就够了

机器学习通常波及在训练期间可视化和度量模型的性能。有许多工具可用于此工作。在本文中，咱们将重点介绍 TensorFlow 的开源工具套件，称为 TensorBoard，尽管他是TensorFlow 的一部分，然而能够独立装置，并且服务于Pytorch等其余的框架。

什么是 TensorBoard？

TensorBoard 是一组用于数据可视化的工具。它蕴含在风行的开源机器学习库 Tensorflow 中。TensorBoard 的次要性能包含：

可视化模型的网络架构
跟踪模型指标，如损失和准确性等
查看机器学习工作流程中权重、偏差和其余组件的直方图
显示非表格数据，包含图像、文本和音频
将高维嵌入投影到低维空间

TensorBoard算是蕴含在 TensorFlow中的一个子服务。TensorFlow 库是一个专门为机器学习利用程序设计的开源库。Google Brain 于 2011 年构建了较早的 DistBelief 零碎。随着其用户群的快速增长，它被简化并重构为咱们当初称为 Tensorflow 的库。TensorFlow 随后于 2015 年向公众公布。TensorBoard刚呈现时只能用于查看TensorFlow的指标和TensorFlow模型的可视化，然而起初通过多方的致力其余深度学习框架也能够应用TensorBoard的性能，例如Pytorch曾经摈弃了自家的visdom（听到过这个名字的人应该都不多了吧）而全面反对TensorBoard。

如何装置 TensorBoard

TensorBoard 蕴含在 TensorFlow 库中，所以如果咱们胜利装置了 TensorFlow，咱们也能够应用 TensorBoard。要独自装置 TensorBoard 能够应用如下命令：

pip install tensorboard

须要留神的是：因为TensorBoard 依赖Tensorflow ，所以会主动装置Tensorflow的最新版

启动 TensorBoard

1、本地启动TensorBoard

要启动 TensorBoard，关上终端或命令提示符并运行：

tensorboard --logdir=<directory_name>

将

directory_name

标记替换为保留数据的目录。默认是“logs”。

运行此命令后，咱们将看到以下提醒：

Serving TensorBoard on localhost; to expose to the network, use a proxy or pass –bind_allTensorBoard 2.2.0 at http://localhost:6006/ (Press CTRL+C to quit)

这阐明 TensorBoard 曾经胜利上线。咱们能够用浏览器关上http://localhost:6006/查看。

当页面第一次关上时，咱们将看到如下内容：

2、在 Jupyter Notebooks 中应用 TensorBoard

如果想在 Jupyter Notebooks 中应用 TensorBoard，能够应用以下命令：

%load_ext tensorboard

运行这行代码将加载 TensorBoard并容许咱们将其用于可视化。加载扩大后，咱们当初能够启动 TensorBoard：

%tensorboard --logdir logs

3、将 TensorBoard 与 Google Colab 一起应用

应用 Google Colab 时，一旦创立一个新的 notebook，TensorFlow 和 TensorBoard 就曾经装置好了。要运行它，咱们能够遵循与 Jupyter Notebooks 概述的雷同过程。只需在笔记本单元格中输出以下内容：

%load_ext tensorboard

咱们会看到 TensorBoard 应用程序。

应用TensorBoard

咱们曾经启动并运行 TensorBoard，上面以TensorFlow 为例介绍如何应用TensorBoard

1、本地应用 TensorBoard

TensorBoard callback 在 TensorFlow 库提供的回调。它是如何工作的？

依据 Keras 文档，回调是能够在训练的各个阶段执行操作的对象。当咱们想在训练过程中的特定工夫节点（例如，在每次epoch/batch之后）主动执行工作时，咱们都能够应用回调。

如何应用 TensorBoard callback 的疾速示例。

首先，应用 TensorFlow 创立一个简略的模型，并在 MNIST 数据集上对其进行训练。

import tensorflow as tf# Load and normalize MNIST datamnist_data = tf.keras.datasets.mnist(X_train, y_train), (X_test, y_test) = mnist_data.load_data()X_train, X_test = X_train / 255.0, X_test / 255.0# Define the modelmodel = tf.keras.models.Sequential([tf.keras.layers.Flatten(input_shape=(28, 28)),tf.keras.layers.Dense(128, activation='relu'),tf.keras.layers.Dropout(0.2),tf.keras.layers.Dense(10, activation='softmax')])# Compile the modelmodel.compile(optimizer='adam',loss='sparse_categorical_crossentropy',metrics=['accuracy'])

编译模型后，咱们须要创立一个回调并在调用

fit

办法时应用。

tf_callback = tf.keras.callbacks.TensorBoard(log_dir="./logs")

当初能够在模型上调用

fit

办法时将回调作为参数传入。在工作目录中创立了

logs

文件夹，并将其作为参数传递给

log_dir

。上面调用 fit 并将其作为回调传入。

model.fit(X_train, y_train, epochs=5, callbacks=[tf_callback])

调用fit办法后，进入localhost:6006查看后果。

咱们看到了一个两个不同的图表。第一个显示了模型在每个epoch的准确性。第二个显示的损失。

2、近程运行 TensorBoard

除了在本地运行之外，还能够近程运行 TensorBoard。如果咱们在具备更弱小 GPU 的不同服务器之间进行并行训练，也能够本地查看后果。

首先，应用SSH 并将近程服务器的端口映射到本地的计算机。

ssh -L 6006:127.0.0.1:6006 username@server_ip

而后只须要在近程服务器上启动 TensorBoard。在近程服务器上运行：

tensorboard --logdir=’logs’ --port=6006

咱们能够拜访 localhost:6006 来查看近程的TensorBoard。

TensorBoard 仪表板

TensorBoard 仪表板由用于可视化数据的不同组件组成。咱们将深入研究每一个组件。

1、TensorBoard Scalars

机器学习过程须要跟踪与模型性能相干的不同指标。这对于疾速发现问题并确定模型是否适度拟合等十分重要。

应用 TensorBoard 的 Scalars Dashboard，能够可视化这些指标并更轻松地调试模型。第一个示例，在 MNIST 数据集上绘制模型的损失和准确性，应用的就是Scalars。

创立回调、指定一个目录来记录数据、在调用 fit 办法时传递回调。这种形式实用于大多数状况，然而如果咱们想要记录一个不容易取得的自定义Scalars怎么办？能够应用 TensorFlow 的 Summary API。这个非凡的 API 用于收集摘要数据，以便当前的可视化和剖析。

让咱们看一个例子来更好地了解这一点。应用一个简略的正弦波作为想要在 TensorBoard 上显示的Scalars。

# Specify a directory for logging datalogdir = "./logs"# Create a file writer to write data to our logdirfile_writer = tf.summary.create_file_writer(logdir)# Loop from 0 to 199 and get the sine value of each numberfor i in range(200):    with file_writer.as_default():        tf.summary.scalar('sine wave', np.math.sin(i), step=i)

tf.summary 中的 scalar 办法，能够记录简直任何咱们想要的标量数据。应用 TensorBoard 时，不仅限于损失和指标。运行上述命令后仪表板的输入如下：

2、TensorBoard Images

在解决图像数据时，如果心愿查看数据查找问题，或者查看样本以确保数据品质，则能够应用 TensorBoard 的 Image Summary API。

持续回到 MNIST 数据集，看看图像在 TensorBoard 中是如何显示的:

# Load and normalize MNIST datamnist_data = tf.keras.datasets.mnist(X_train, y_train), (X_test, y_test) = mnist_data.load_data()X_train, X_test = X_train / 255.0, X_test / 255.0

将数据的第一张图像并将其可视化。

# Reshape the first imageimg = np.reshape(X_train[0], (-1, 28, 28, 1))# Specify a directory for logging datalogdir = "./logs"# Create a file writer to write data to our logdirfile_writer = tf.summary.create_file_writer(logdir)# With the file writer, log the image datawith file_writer.as_default():    tf.summary.image("Training data", img, step=0)

查看图像须要抉择IMAGES选项：

3、TensorBoard Graphs

所有模型都能够看作是一个计算图。有时很难通过独自查看代码来理解模型的体系结构。对其进行可视化能够很容易看到模型的构造，也可能确保应用的架构是咱们想要或设计的。

上面可视化之前用于 MNIST 数据集的模型。上面是模型定义。

# Define the modelmodel = tf.keras.models.Sequential([    tf.keras.layers.Flatten(input_shape=(28, 28)),    tf.keras.layers.Dense(128, activation='relu'),    tf.keras.layers.Dropout(0.2),    tf.keras.layers.Dense(10, activation='softmax')])

还须要创立一个 TensorBoard 回调并在训练模型时应用它。

# Create a callbacktf_callback = tf.keras.callbacks.TensorBoard(log_dir="./logs")# Pass in the callback when fitting the modelmodel.fit(X_train, y_train, epochs=5, callbacks=[tf_callback])

训练后，查看Graphs 选项：

这里显示的是模型的操作级图（逐层显示模型架构）。这对于查看咱们的模型是否正确以及每一层是否合乎咱们的预期十分重要。该图的数据从底部流向顶部。

如果须要，还能够查看概念图。在侧边栏中找到 Tag 题目并将其更改为 Keras：

能够查看模型的构造是否正确。图中的节点表明模型是一个程序模型。

4、TensorBoard Distributions and Histograms 散布和直方图

TensorBoard 散布和直方图是跟踪模型另一种好办法。应用官网提供的回调，在训练后TensorBoard 上会显示几个选项。如果咱们转到Distributions 选项卡，将看到如下图：

这组图表显示了形成模型的张量。在每个图的程度轴上显示 epoch 数，在垂直轴上显示了每个张量的值。这些图表基本上显示了这些张量如何随着训练的进行而随工夫变动。较暗的区域显示值在某个区域停留了更长的工夫（没更新）。如果放心模型权重在每个epoch 都没有正确更新，能够应用此选项发现这些问题。

咱们在Histograms选项上看到了一组不同的图表，它们示意模型的张量。

这些图显示了模型中张量的不同视图。每个图都有五个互相重叠的直方图，代表训练过的五个epoch中的每一个。它们显示了张量权重偏向于集中在哪个区域的信息。这对于调试模型的行为，发现异常十分有用。

5、TEXT

文本是创立机器学习模型时罕用的数据类型。很多时候，很难将文本数据可视化。TensorBoard能够应用 Text Summary API 轻松地可视化文本数据。让咱们看看它是如何工作的。

应用文本 Hello World 作为一个简略的示例。

# Our sample textsample_text = "Hello world!"# Specify a directory for logging datalogdir = "./logs/text/"# Create a file writer to write data to our logdirfile_writer = tf.summary.create_file_writer(logdir)# With the file writer, log the text datawith file_writer.as_default():    tf.summary.text("sample_text", sample_text, step=0)

TensorBoar的Text 选项卡中输出的文本。

6、TensorBoard projector 投影

深度学习模型通常实用于具备大量维度的数据。可视化这些维度能够让咱们深刻理解进步模型的性能。TensorBoard 提供一个嵌入的投影，能够轻松的可视化高维数据。

首先，须要从 TensorBoard 导入投影插件。

from tensorboard.plugins import projector

咱们将应用 IMDB 电影评论数据集来可视化嵌入。

import osimport tensorflow as tfimport tensorflow_datasets as tfds# Load the data(train_data, test_data), info = tfds.load(    "imdb_reviews/subwords8k",    split=(tfds.Split.TRAIN, tfds.Split.TEST),    with_info=True,    as_supervised=True,)encoder = info.features["text"].encoder    # Create training batchestrain_batches = train_data.shuffle(1000).padded_batch(    10, padded_shapes=((None,), ()))# Create testing batchestest_batches = test_data.shuffle(1000).padded_batch(    10, padded_shapes=((None,), ()))# Get the first batchtrain_batch, train_labels = next(iter(train_batches))

在下面的代码中，加载并预处理数据，上面代码将创立一个简略的模型来为文本生成嵌入，训练模型 epoch=1 并可视化后果。

# Create an embedding layerembedding_dim = 16embedding = tf.keras.layers.Embedding(    encoder.vocab_size,     embedding_dim)# Configure the embedding layer as part of a Keras modelmodel = tf.keras.Sequential([    embedding,    tf.keras.layers.GlobalAveragePooling1D(),    tf.keras.layers.Dense(16, activation="relu"),    tf.keras.layers.Dense(1),])# Compile the modelmodel.compile(    optimizer="adam",    loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),    metrics=["accuracy"],)# Train the model for a single epochhistory = model.fit(    train_batches, epochs=1, validation_data=test_batches)

拟合模型时须要将数据写入

logdir

，相似于咱们在后面局部中所做的。

# Set up a log dir, just like in previous sectionslog_dir='/logs/imdb-example/'if not os.path.exists(log_dir):    os.makedirs(log_dir)# Save labels separately in a line-by-line manner.with open(os.path.join(log_dir, 'metadata.tsv'), "w") as f:    for subwords in encoder.subwords:        f.write("{}\n".format(subwords))# Fill in the rest of the labels with "unknown"for unknown in range(1, encoder.vocab_size - len(encoder.subwords)):    f.write("unknown #{}\n".format(unknown))# Save the weights we want to analyze as a variableweights = tf.Variable(model.layers[0].get_weights()[0][1:])# Create a checkpoint from embedding, the filename and key are the# name of the tensorcheckpoint = tf.train.Checkpoint(embedding=weights)checkpoint.save(os.path.join(log_dir, "embedding.ckpt"))# Set up configconfig = projector.ProjectorConfig()embedding = config.embeddings.add()# The name of the tensor will be suffixed by# `/.ATTRIBUTES/VARIABLE_VALUE`embedding.tensor_name = "embedding/.ATTRIBUTES/VARIABLE_VALUE"embedding.metadata_path = 'metadata.tsv'projector.visualize_embeddings(log_dir, config)

在TensorBoard 右上角的下拉菜单中的projector选项能够查看可视化的嵌入：

TensorBoard 插件

TensorBoard 还提供了很多不同的插件能够帮忙咱们实现各种不同的需要，上面介绍一些十分有用的插件

1、TensorFlow Profiler

TensorFlow Profiler 用于剖析 TensorFlow 代码的执行状况。这很重要，因为咱们想晓得正在运行的模型是否失去了适当的优化。这里须要装置了Profiler插件。

pip install  tensorboard_plugin_profile

创立一个模型，而后在拟合时应用 TensorBoard 回调。

# Create a callbacktf_callback = tf.keras.callbacks.TensorBoard(log_dir="./logs")# Pass in the callback when fitting the modelmodel.fit(X_train, y_train, epochs=5, callbacks=[tf_callback])

当进入 TensorBoard 页面时，咱们将看到一个名为 Profile 的新选项。切换到此选项，将看到相似于下图的内容。

这是有很多信息的概览页面，所以让咱们合成一下：

页面右上角有一个 Step-time 图，显示训练过程的哪些局部破费的工夫最多。能够看到模型不是输出绑定的，很多工夫都花在了启动内核上。
还看到了一些优化模型性能的倡议
在咱们的例子中，计算都没有应用 16 位操作，能够通过转换进步性能。

在左侧，有一个名为“Tools”的下拉菜单。能够抉择 Trace Viewer 来查看模型性能的瓶颈呈现在哪里。Trace Viewer 显示剖析期间产生的 GPU 和 CPU 事件的工夫线。

垂直轴显示具备不同跟踪事件的事件组。从 CPU 和 GPU 收集跟踪事件。每个矩形都是一个独自的跟踪事件。能够单击其中任何一个来关注跟踪事件并对其进行剖析。还能够拖动光标一次抉择多个事件。

在“Tools”下拉列表中，还能够应用“input_pipeline_analyzer”，能够依据收集的数据查看模型的输出管道性能。

这里能够通知咱们模型是否是输出绑定的。例如上图意味着模型破费大量工夫期待输出而不是运行推理。它还能够通知咱们管道中的哪个阶段最慢。

为了更深刻地理解不同的 TensorFlow 操作，还有另一个名为 TensorFlow stats 选项，能够显示模型正在执行的不同操作的细分。

运行模型时，饼图显示了正在计算的不同操作。包含编码、矩阵乘法等计算，以及须要执行的许多其余推理操作。在优化模型时，能够关注其中哪些破费最多的工夫的操作。

2、Fairness Indicators Dashboard

Fairness Indicators Dashboard 帮忙咱们计算二进制和多类分类器的不同偏心指标。能够评估模型在不同运行中的公平性，并比拟它们在不同组之间的性能。

要开始在咱们的数据上应用 Fairness Indicators Dashboard，须要装置一些依赖：

pip install fairness_indicatorspip install tensorboard-plugin-fairness-indicators

导入插件：

from tensorboard_plugin_fairness_indicators import summary_v2

summary_v2

的应用办法与在后面章节中将数据记录到

logdir

时应用

tf.summary

一样。

# Create a file writer to write data to our logdirfile_writer = tf.summary.create_file_writer(logdir)# Write data to our result directorywith file_writer.as_default():    summary_v2.FairnessIndicators(result_dir, step=1)

后果如下：

在 TensorBoard 中会有一个新的Fairness Indicators 选项卡。在这里，能够查看模型预测的不同类别值的细分以及它们与基线的百分比差别，以确定模型是否偏心。

应用 What-If 工具理解模型

TensorBoard 附带一个假如剖析工具 (WIT)，能够帮忙咱们了解黑盒分类和回归模型。应用这个工具，能够对一组数据进行预测，并以不同的形式可视化后果。

也能够手动或以编程形式编辑示例，查看更改它们如何影响模型的预测。

要应用 WIT须要提供模型和数据，如果想要更深刻的摸索模型必须带有分类、回归或预测 API 的 TensorFlow Serving 进行部署。

另外要进行预测的数据集应该以 TFRecord 格局存储，并且能够由咱们运行 TensorBoard 的服务器拜访。

设置实现后，转到 TensorBoard Dashboard 并从页面右上角的下拉菜单中抉择 What-If Tool 选项。应该看到一个如下所示的页面：

第一个字段是提供模型的推理地址。如果在本地提供TensorFlow Serving ，这将等于

localhost:port

。还须要输出模型名称、可选的模型版本和模型的签名。

输出数据所在的门路。下面提到的

TFRecord

文件。

最初单击Accept按钮，咱们就会跳转到后果页面。

数据集中的每个点当初都依据它们的类进行着色。能够对数据进行分箱、分桶、创立散点图和对数据点进行不同着色等操作。

将 TensorBoard 数据作为 DataFrame进行拜访

TensorBoard 次要是一个用于可视化数据的 GUI 工具。然而一些用户可能心愿以编程形式与 TensorBoard 数据进行交互，例如自定义可视化和长期的剖析。所以能够将 TensorBoard 数据作为 DataFrame 拜访，这样能够在独自的程序中应用。

这个API 仍处于试验阶段，因而可能后续版本还会有重大的更改。

咱们只需将“logdir”上传到 TensorBoard.dev 能力应用此性能，这部分咱们须要一些依赖项。首先须要确认曾经装置了 Pandas。还须要一种可视化数据的办法。罕用的库是 Matplotlib 和 Seaborn。

TensorBoard.dev 上的 TensorBoard

logdir

被称为experiment。每个experiment都有一个惟一的 ID，咱们能够应用它以编程形式拜访数据。

# Change the experiment id to our ownexperiment_id = "insert experiment ID here"# Get the experiment using the idexperiment = tb.data.experimental.ExperimentFromDev(experiment_id)# Save the scalars to a dataframedf = experiment.get_scalars()

当初df 中领有所有可用的 logdir 数据。

当初能够像操作任何其余 DataFrame 一样操作它来进一步剖析。

将 TensorBoard 与 PyTorch 联合应用

PyTorch 是另一个深受钻研人员欢送的深度学习框架。PyTorch 当初也曾经反对 TensorBoard了。

在应用 TensorFlow 时，应用 Summary API 创立了将数据记录到

logdir

文件夹的对象。在应用 PyTorch 时，官网也提供了相似的API。

# Import the summary writerfrom torch.utils.tensorboard import SummaryWriter# Create an instance of the objectwriter = SummaryWriter()

这样就能够应用与 TensorFlow 雷同的形式解决的雷同 MNIST 数据集。

import torchimport torchvisionfrom torchvision import datasets, transforms# Compose a set of transforms to use later ontransform = transforms.Compose([    transforms.ToTensor(),     transforms.Normalize((0.5,), (0.5,))])# Load in the MNIST datasettrainset = datasets.MNIST(    'mnist_train',     train=True,     download=True,     transform=transform)# Create a data loadertrainloader = torch.utils.data.DataLoader(    trainset,     batch_size=64,     shuffle=True)# Get a pre-trained ResNet18 modelmodel = torchvision.models.resnet18(False)# Change the first layer to accept grayscale imagesmodel.conv1 = torch.nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3, bias=False)# Get the first batch from the data loaderimages, labels = next(iter(trainloader))# Write the data to TensorBoardgrid = torchvision.utils.make_grid(images)writer.add_image('images', grid, 0)writer.add_graph(model, images)writer.close()

运行此程序后，转到 TensorBoard 并查看保留的输入。

失去了与应用 TensorFlow 时类似的输入。

应用 TensorBoard.dev 上传和共享后果

TensorBoard.dev 是 TensorBoard 的一个组件，它容许咱们在网络上托管机器学习后果。对于那些渴望展现他们的成绩的人来说这是适宜的工具。

能够应用以下命令从终端或命令提示符将其上传到 TensorBoard.dev：

tensorboard dev upload --logdir {logs}

请确保不要上传任何敏感数据！

应用 Google 帐户受权上传后，会取得一个代码。输出代码后，返回一个指向上传的 TensorBoard 日志的链接。

当初能够与任何人分享这个链接，让他们看到咱们所做的工作。

应用 TensorBoard 的限度

只管 TensorBoard 附带了许多用于可视化咱们的数据和模型的工具，但它也有其局限性。

1、不足用户治理

TensorBoard 没有用户的概念，因为它在繁多环境中工作。也不能在同一台机器上运行多个 TensorBoard 实例，因而如果咱们同时解决多个我的项目，应用起来可能会很有挑战性。

2、难以在团队环境中应用

与上述限度相似，TensorBoard 实例不能在其余用户之间共享。如果有几个人在同一个我的项目上工作，须要一个集中的dashboard和每个人的独自工作区。TensorBoard 不反对此性能。

3、不反对数据和模型版本控制

在调整模型或设置超参数值时，咱们须要保留不同的模型和训练数据版本。尤其是在进行试验时，心愿同时查看不同版本的模型和数据。TensorBoard不能将某个运行或一组数据标记为特地重要。

4、执行大量运行时会呈现问题

TensorBoard 并没有思考到大量间断运行。如果持续运行模型并重复记录数据，将遇到 UI 问题，使界面难以使用。

5、不反对可视化视频文件和非结构化数据格式

某些数据类型无奈在 TensorBoard 中可视化。特地是罕用的视频数据。如果工作波及对此类数据进行建模，则很难应用 TensorBoard。

总结

本文曾经具体介绍了 TensorBoard，它是用于可视化机器学习模型的数据可视化工具包。本文介绍了TensorBoard所有根本组件以及新的试验性功能，例如假如工具和偏心指标组件。借助这些性能，能够可能轻松查看和调试咱们训练的模型的外部工作，并最终进步它们的性能。

https://www.overfit.cn/post/68f56127b3094cae88010203beba76d8

作者：Zito Relova