关于tensorflow:TensorFlow中EncoderDecoder模型理解与实践

Seq2Seq模型次要在NLP，机器翻译，序列预测等问题上效果显著。
个别状况下能够合成Seq2Seq模型为两个子模型：Encoder和Decoder。

Encoder的输出为原始的序列数据，输入为通过NN泛化的表征Tensor（惯例操作）；此output便是Decoder的input。通过Encoder进行编码的raw data，再通过Decoder进行解码为另外齐全不同的output（例如：英文到中文的转换）

那么在构建这样一个Seq2Seq模型须要哪几步呢？

1. 定义Encoder模型中的数据输出参数

encoder_decoder_model_inputs创立并返回与模型相干的参数（tf占位符）

def enc_dec_model_inputs():

    inputs = tf.placeholder(tf.int32, [None, None], name='input')

    targets = tf.placeholder(tf.int32, [None, None], name='targets')

    target_sequence_length = tf.placeholder(tf.int32, [None], name='target_sequence_length')

    max_target_len = tf.reduce_max(target_sequence_length)

    return inputs, targets, target_sequence_length, max_target_len

inputs占位符为了接管原始英文句子，shape==（None，None）别离示意batch size和句子长度。这里有个小trick，不同batch中句子的长度可能是不同的，所以不能设置为固定长度。通用解决办法是设置每一个batch中最长的句子长度为最大长度（必须通过Padding补齐）。
targets占位符接管原始中文句子
target_sequence_length占位符示意每个句子的长度，shape为None，是列张量，与批处理大小雷同。该特定值是与前面的TrainerHelper的参数，用于构建用于训练的解码器模型。
max_target_len是指从所有指标句子（序列）的长度中获取最大值。target_sequence_length参数中蕴含所有句子的长度。从中获取最大值的办法是应用tf.reduce_max。

2.建设Decoder模型

编码模型由两个不同局部组成。第一局部是嵌入层；句子中的每个单词都将应用指定为encoding_embedding_size来泛化。这一层对文字信息压缩编码表示。第二局部是RNN层。在此实际中，在利用embedding之后，多个LSTM单元被重叠在一起。当然能够应用不同品种的RNN单元，例如GRU。

def encoding_layer(rnn_inputs, rnn_size, num_layers,                        keep_prob,
                    source_vocab_size,
                    encoding_embedding_size):
    """
    :return: tuple (RNN output, RNN state)
    """

    embed = tf.contrib.layers.embed_sequence(rnn_inputs,

                vocab_size=source_vocab_size, embed_dim=encoding_embedding_size)

    stacked_cells = tf.contrib.rnn.MultiRNNCell([tf.contrib.rnn.DropoutWrapper(tf.contrib.rnn.LSTMCell(rnn_size), keep_prob) for _ in range(num_layers)])

    outputs, state = tf.nn.dynamic_rnn(stacked_cells,
                            embed, dtype=tf.float32)

    return outputs, state

embedding layer：tf.keras.layers.Embedding
RNN layer：
1. TF contrib.rnn.LSTMCell 形容存在多少个外在神经元节点
2. TF contrib.rnn.DropoutWrapper 退出dropout参数
3. TF contrib.rnn.MultiRNNCell 连贯多个RNN cell
Encoder model：TF nn.dynamic_rnn 组合embedding层与RNN层

3.定义Decoder模型中的数据输出参数

对于Decoder中的训练和推理，须要不同的输出。在训练过程中，输出由embedded后的指标label提供；在推理阶段，每个工夫步的输入将是下一时间步的输出。它们也须要embedding，并且embedded向量应在两个不同的阶段之间共享。

那么训练过程中如何让模型晓得接下来就是target label呢？答案是在target label之前退出标识符。如下：

def process_decoder_input(target_data, target_vocab_to_int, batch_size):

    # get '<GO>' id

    go_id = target_vocab_to_int['<GO>']

    after_slice = tf.strided_slice(target_data, [0, 0], [batch_size, -1], [1, 1])

    after_concat = tf.concat( [tf.fill([batch_size, 1], go_id), after_slice], 1)

    return after_concat

4.建设Decoder模型中的训练局部

解码模型能够思考两个独立的过程，即训练和推理。不是它们具备不同的体系结构，而是它们共享雷同的体系结构及其参数。他们有不同的策略来提供共享模型。
尽管编码器应用tf.contrib.layers.embed_sequence，但它可能不适用于解码器，就算须要embedded其输出。那是因为应该通过训练和推断阶段来共享雷同的embedded向量。 tf.contrib.layers.embed_sequence只能在运行之前embedded筹备好的数据集。推理过程所需的是动静embedded性能。在运行模型之前，不可能嵌入推理过程的输入，因为以后工夫步的输入将是下一时间步的输出。
那么到底在推理过程中是如何嵌入的？下一节将会讲到。须要记住的是训练和推理过程共享雷同的嵌入参数。对于培训局部，应提供嵌入的输出。在推断局部，仅传递训练局部中应用的嵌入参数。

def decoding_layer_train(encoder_state, dec_cell, dec_embed_input,

                target_sequence_length, max_summary_length,

                output_layer, keep_prob):

    """

    Create a training process in decoding layer

    :return: BasicDecoderOutput containing training logits and sample_id

    """

    dec_cell = tf.contrib.rnn.DropoutWrapper(dec_cell,

    output_keep_prob=keep_prob)

    # for only input layer

    helper = tf.contrib.seq2seq.TrainingHelper(dec_embed_input,

    target_sequence_length)

    decoder = tf.contrib.seq2seq.BasicDecoder(dec_cell,

    helper,

    encoder_state,

    output_layer)

    # unrolling the decoder layer

    outputs, _, _ = tf.contrib.seq2seq.dynamic_decode(decoder,

    impute_finished=True,

    maximum_iterations=max_summary_length)

    return outputs

tf.contrib.seq2seq.TrainingHelper:TrainingHelper是用来传递embedded输出参数的。顾名思义，这只是一个helper实例。该实例由BasicDecoder调用，这就是构建解码器模型的理论流程。
tf.contrib.seq2seq.BasicDecoder：BasicDecoder构建解码器模型。这意味着它将解码器端的RNN层与TrainingHelper筹备的输出连接起来。
tf.contrib.seq2seq.dynamic_decode：dynamic_decode开展解码器模型，以便BasicDecoder能够针对每个工夫步长检索理论预测。

5. 建设decoder模型中的推理局部

tf.contrib.seq2seq.GreedyEmbeddingHelper:：GreedyEmbeddingHelper动静获取以后步骤的输入，并将其提供给下一个步骤的输出。为了动静地嵌入每个输出后果，应提供嵌入参数（只是一堆权重值）。同时，GreedyEmbeddingHelper要求提供与批处理大小和end_of_sequence_id雷同数量的start_of_sequence_id。

def decoding_layer_infer(encoder_state, dec_cell, dec_embeddings, start_of_sequence_id,

                end_of_sequence_id, max_target_sequence_length,

                vocab_size, output_layer, batch_size, keep_prob):

    """

    Create a inference process in decoding layer

    :return: BasicDecoderOutput containing inference logits and sample_id

    """

    dec_cell = tf.contrib.rnn.DropoutWrapper(dec_cell,

    output_keep_prob=keep_prob)

    helper = tf.contrib.seq2seq.GreedyEmbeddingHelper(dec_embeddings,

    tf.fill([batch_size], start_of_sequence_id),

    end_of_sequence_id)

    decoder = tf.contrib.seq2seq.BasicDecoder(dec_cell,

    helper,

    encoder_state,

    output_layer)

    outputs, _, _ = tf.contrib.seq2seq.dynamic_decode(decoder,

    impute_finished=True,

    maximum_iterations=max_target_sequence_length)

    return outputs

6.建设Decoder layer

6.1. Embed the target sequences

tf.contrib.layers.embed_sequence:创立嵌入参数的外部示意，因而咱们无奈考察或检索它。相同，您须要通过TF Variable手动创立嵌入参数。
手动创立的嵌入参数用于训练阶段，在运行训练之前通过TF nn.embedding_lookup转换提供的指标数据（句子序列）。带有手动创立的嵌入参数的TF nn.embedding_lookup返回的后果与TF contrib.layers.embed_sequence类似。对于推理过程，每当通过解码器计算以后工夫步的输入时，它将被共享的嵌入参数嵌入，并成为下一个工夫步的输出。您只须要向GreedyEmbeddingHelper提供embedding参数，将对处理过程有所帮忙。
tf.nn.embedding_lookup：简而言之，检索出合乎指定行。
对于tf.variable_scope相干，请查看此链接

6.2 Construct the decoder RNN layer(s)

Decoder与Encoder中RNN的层数必须统一

6.3 创立一个输入层以将解码器的输入映射到咱们词汇表的元素

全连贯层以获取每个单词最初呈现的概率。

def decoding_layer(dec_input, encoder_state,

            target_sequence_length, max_target_sequence_length,

            rnn_size,num_layers, target_vocab_to_int, target_vocab_size,

            batch_size, keep_prob, decoding_embedding_size):

    """

    Create decoding layer

    :return: Tuple of (Training BasicDecoderOutput, Inference BasicDecoderOutput)

    """

    target_vocab_size = len(target_vocab_to_int)

    dec_embeddings = tf.Variable(tf.random_uniform([target_vocab_size, decoding_embedding_size]))

    dec_embed_input = tf.nn.embedding_lookup(dec_embeddings, dec_input)

    cells = tf.contrib.rnn.MultiRNNCell([tf.contrib.rnn.LSTMCell(rnn_size) for _ in range(num_layers)])

    with tf.variable_scope("decode"):

    output_layer = tf.layers.Dense(target_vocab_size)

    train_output = decoding_layer_train(encoder_state,

    cells,

    dec_embed_input,

    target_sequence_length,

    max_target_sequence_length,

    output_layer,

    keep_prob)

    with tf.variable_scope("decode", reuse=True):

    infer_output = decoding_layer_infer(encoder_state,

    cells,

    dec_embeddings,

    target_vocab_to_int['<GO>'],

    target_vocab_to_int['<EOS>'],

    max_target_sequence_length,

    target_vocab_size,

    output_layer,

    batch_size,

    keep_prob)

    return (train_output, infer_output)

7.建设Seq2Seq模型

最终，encoding_layer, process_decoder_input, and decoding_layer等函数组合起来建设Seq2Seq模型。

def seq2seq_model(input_data, target_data, keep_prob, batch_size,

                    target_sequence_length,

                    max_target_sentence_length,

                    source_vocab_size, target_vocab_size,

                    enc_embedding_size, dec_embedding_size,

                    rnn_size, num_layers, target_vocab_to_int):

    """

    Build the Sequence-to-Sequence model

    :return: Tuple of (Training BasicDecoderOutput, Inference BasicDecoderOutput)

    """

    enc_outputs, enc_states = encoding_layer(input_data,

    rnn_size,

    num_layers,

    keep_prob,

    source_vocab_size,

    enc_embedding_size)

    dec_input = process_decoder_input(target_data,

    target_vocab_to_int,

    batch_size)

    train_output, infer_output = decoding_layer(dec_input,

    enc_states,

    target_sequence_length,

    max_target_sentence_length,

    rnn_size,

    num_layers,

    target_vocab_to_int,

    target_vocab_size,

    batch_size,

    keep_prob,

    dec_embedding_size)

    return train_output, infer_output

8.建设动态图，loss函数，优化器，梯度裁剪（RNN网络必加）

save_path = 'checkpoints/dev'

(source_int_text, target_int_text), (source_vocab_to_int, target_vocab_to_int), _ = load_preprocess()

max_target_sentence_length = max([len(sentence) for sentence in source_int_text])

train_graph = tf.Graph()

with train_graph.as_default():

    input_data, targets, target_sequence_length, max_target_sequence_length = enc_dec_model_inputs()

    lr, keep_prob = hyperparam_inputs()

    train_logits, inference_logits = seq2seq_model(tf.reverse(input_data, [-1]),

    targets,

    keep_prob,

    batch_size,

    target_sequence_length,

    max_target_sequence_length,

    len(source_vocab_to_int),

    len(target_vocab_to_int),

    encoding_embedding_size,

    decoding_embedding_size,

    rnn_size,

    num_layers,

    target_vocab_to_int)

    training_logits = tf.identity(train_logits.rnn_output, name='logits')

    inference_logits = tf.identity(inference_logits.sample_id, name='predictions')

    # https://www.tensorflow.org/api_docs/python/tf/sequence_mask

    # - Returns a mask tensor representing the first N positions of each cell.

    masks = tf.sequence_mask(target_sequence_length, max_target_sequence_length, dtype=tf.float32, name='masks')

    with tf.name_scope("optimization"):

        # Loss function - weighted softmax cross entropy

        cost = tf.contrib.seq2seq.sequence_loss(

        training_logits,

        targets,

        masks)

        # Optimizer

        optimizer = tf.train.AdamOptimizer(lr)

        # Gradient Clipping

        gradients = optimizer.compute_gradients(cost)

        capped_gradients = [(tf.clip_by_value(grad, -1., 1.), var) for grad, var in gradients if grad is not None]

        train_op = optimizer.apply_gradients(capped_gradients)

8.1 dataloader

(source_int_text, target_int_text)为输出数据，(source_vocab_to_int, target_vocab_to_int)为查找每个值对应的索引值的字典

8.2 create inputs

详见代码

def hyperparam_inputs():
    lr_rate = tf.placeholder(tf.float32, name='lr_rate')
    keep_prob = tf.placeholder(tf.float32, name='keep_prob')
    
    return lr_rate, keep_prob

8.3 建设seq2seq model

返回训练与推理后果

8.4 损失函数

TF contrib.seq2seq.sequence_loss：Weighted cross-entropy loss for a sequence of logits.为时序模型专用

8.5 优化器

8.6 梯度裁剪

RNN根本都会面临的问题就是训练过程中的梯度爆炸。解决办法就是梯度裁剪。罕用的梯度裁剪有两种办法：

间接依据参数的梯度值间接进行裁剪
由若干参数的梯度组成向量的L2正则化进行裁剪

此处应用的是第一种办法：
通过确定阈值以使梯度放弃在某个边界内。具体一点此处是阈值范畴在-1和1之间。下面代码中的构建流程为：

通过调用compute_gradients手动从优化器中获取梯度值，
而后应用clip_by_value操作梯度值
须要通过调用apply_gradients将批改后的梯度放回到优化器中

此框架曾经扩大到生理信号分类我的项目，泛化性能最高。

关于tensorflow:TensorFlow中EncoderDecoder模型理解与实践

1. 定义Encoder模型中的数据输出参数

2.建设Decoder模型

3.定义Decoder模型中的数据输出参数

4.建设Decoder模型中的训练局部

5. 建设decoder模型中的推理局部

6.建设Decoder layer

6.1. Embed the target sequences

6.2 Construct the decoder RNN layer(s)

6.3 创立一个输入层以将解码器的输入映射到咱们词汇表的元素

7.建设Seq2Seq模型

8.建设动态图，loss函数，优化器，梯度裁剪（RNN网络必加）

8.1 dataloader

8.2 create inputs

8.3 建设seq2seq model

8.4 损失函数

8.5 优化器

8.6 梯度裁剪

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于tensorflow:TensorFlow中EncoderDecoder模型理解与实践

1. 定义Encoder模型中的数据输出参数

2.建设Decoder模型

3.定义Decoder模型中的数据输出参数

4.建设Decoder模型中的训练局部

5. 建设decoder模型中的推理局部

6.建设Decoder layer

6.1. Embed the target sequences

6.2 Construct the decoder RNN layer(s)

6.3 创立一个输入层以将解码器的输入映射到咱们词汇表的元素

7.建设Seq2Seq模型

8.建设动态图，loss函数，优化器，梯度裁剪（RNN网络必加）

8.1 dataloader

8.2 create inputs

8.3 建设seq2seq model

8.4 损失函数

8.5 优化器

8.6 梯度裁剪

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复