神经机器翻译,语境参数生成器

原标题:EMNLP 2018 |
结合通用和专用NMT的优势,CMU为NMT引入「语境参数生成器」

原文:https://www.tensorflow.org/versions/r1.5/tutorials/seq2seq

近日,谷歌官方在
Github开放了一份神经机器翻译教程,该教程从基本概念实现开始,首先搭建了一个简单的NMT模型,随后更进一步引进注意力机制和多层
LSTM加强系统的性能,最后谷歌根据
GNMT提供了更进一步改进的技巧和细节,这些技巧能令该NMT系统达到极其高的精度。机器之心对该教程进行简要的描述,跟详细和精确的内容请查看项目原网站。

选自arXiv

(全文99.9%由google翻译,自学使用)

GitHub 链接:

作者:Emmanouil Antonios
Platanios等

作者:Thang Luong,Eugene Brevdo,Rui Zhao(Google Research
Blogpost,Github)

机器翻译,即跨语言间的自动翻译,是机器学习社区最活跃的研究领域。在机器翻译的众多方法中,序列到序列(sequence-to-sequence,seq2seq)模型[1,
2]
近期获得巨大成功。由于其可以使用深度神经网络获取句义,该模型成为谷歌翻译等多数商业翻译系统事实上的标准模型。但是,尽管有关OpenNMT
或 tf-seq2seq 等
seq2seq模型的资料已经非常丰富,但能够指导人们快速构建高质量翻译系统的知识和技能仍然略显不足。

参与:白悦、刘晓坤

本教程的这个版本需要TensorFlow Nightly。
为了使用稳定的TensorFlow版本,请考虑其他分支,如tf-1.4。

今天,我们很高兴能够发布最新的TensorFlow
神经机器翻译教程,帮助读者全面了解
seq2seq模型,并介绍如何从头开始构建有竞争力的翻译模型。该教程尽可能简单地呈现该过程,教程首先介绍神经机器翻译的背景知识,并讲述构建
vanilla系统的具体代码。然后介绍注意力机制 [3, 4] 这一帮助 NMT
系统处理长句的重要工具。最后,本教程将讲解如何复制谷歌NMT(GNMT)系统
[5] 的关键特征,以实现在多个 GPU 上训练模型。

通用和专用 NMT
模型分别在相似语言对和罕见语言对的翻译中具有优势,但这也反映了各自的劣势,取决于参数共享的程度。为此,CMU
的研究者在本文中提出了一种在两者之间取得平衡方法,不需要改变 NMT
原有架构,而是引入新的组件
CPG,来可控地实现不同语言对模型之间的参数共享。该组件可无缝整合不同的
NMT,并在基准数据集上取得当前最佳。研究者强调,该方法使我们更接近普适的中间语言。

如果使用这个代码库进行研究,请引用此。

本教程包括具体的基准测试结果,用户可自行复制。我们的模型提供强大的开源基准,其性能不亚于
GNMT 的结果 [5]。我们在 WMT 2014 的英语转德语翻译任务中取得了 BLEU
得分 24.4 的成绩。

神经机器翻译(NMT)无需单独训练或调整系统的任何部分就可以直接建模源语言到目标语言的映射。这使得
NMT 快速发展,并在许多大规模环境中成功应用 (Wu et al., 2016; Crego et
al.,
2016)。编码器-解码器抽象使构建将任何语言的源句映射到向量表示,再将向量表示解码到任何目标语言的系统在概念上变得可行。因此,人们提出了各种方法来扩展这种多语言机器翻译的抽象
(Luong et al., 2016; Dong et al., 2015; Johnson et al., 2017; Ha et al.,
2016; Firat et al., 2016a)。

介绍(Introduction)

序列 – 序列(seq2seq)模型(Sutskever et al.,
2014,
Cho et al.,
2014
)在机器翻译,语音识别和文本摘要等各种任务中取得了巨大的成功。
本教程为读者提供了seq2seq模型的全面理解,并展示了如何从头构建一个有竞争力的seq2seq模型。
我们专注于神经机器翻译(NMT)的任务,它是seq2seq模型的第一个测试平台。
包含的代码是轻量级的,高质量的,生产就绪,并结合最新的研究思路。
我们通过以下方式达到这个:

  1. 使用最近的解码器/注意力包装器(decoder / attention
    wrapper)API,TensorFlow 1.2数据迭代器
  2. 结合我们强大的专业知识,建立循环和seq2seq模型
  3. 为建立最好的NMT模型和重现Google’s NMT
    (GNMT)系统提供技巧和窍门。

我们相信提供人们可以轻松重现的benchmarks是非常重要的。
因此,我们提供了完整的实验结果,并在以下公开可用的数据集上对模型进行预训练:

  1. 小规模:IWSLT Evaluation
    Campaign提供的英语 –
    越南语TED对话语料库(133K个句子对)。
  2. 大规模:WMT Evaluation
    Campaign提供的德英平行语料库(4.5M句子对)。

我们首先建立一些关于NMT的seq2seq模型的基本知识,解释如何建立和训练一个vanilla
NMT模型。 第二部分将着重于构建具有注意力机制的竞争性NMT模型。
然后,我们将讨论一些技巧和诀窍,以建立最佳NMT模型(包括速度和翻译质量),如TensorFlow最佳实践(批处理,分段),双向RNN,波束搜索(beam
search [这个是啥?])以及使用GNMT注意力扩展到多个GPU。

本教程还包括其他的基准测试结果(英语转越南语、德语转英语)。

多语言 NMT
之前的工作可大致分为两种范式。第一个通用 NMT (Johnson et al., 2017; Ha
et al., 2016) 对所有语言使用单一模型。通用 NMT
没有任何特定语言的参数化,在翻译截然不同的语言和数据有限的情况下,这种模式过于简单化且非常不利。通过实验验证,Johnson
等人的方法(2017)在高样本复杂度情况下性能变差,因此在有限的数据设置中表现不佳。Ha
等人提出的通用模型(2016)需要输入句子的新编码方案,这会导致过大的词汇量从而难以扩展。第二种范式,特定于每种语言的编码器-解码器
(Luong et al., 2016; Firat et al.,
2016a),每种语言使用独立的编码器和解码器。这不允许跨语言共享信息,可能导致过度参数化,且在语言相似的情况下可能有害。

基础知识(Basic)

另外,本教程将开放全动态的 seq2seq API(随 TensorFlow 1.2 发布),该 API
使 seq2seq 模型的构建过程干净、简单、易读:

在本文中,CMU
的研究者在这两种方法之间取得了平衡,提出了一种能够分别为每种语言学习参数的模型,同时也能在相似语言之间共享信息。研究者使用了新的语境相关的参数生成器(CPG),它可以(a)泛化所有这些方法;(b)缓解上述通用和独立语言编码器-解码器系统的问题。它将语言嵌入作为翻译的语境进行学习,并用它们为所有语言对生成共享翻译模型的参数。因此,它为这些模型提供了每种语言单独学习参数的能力,同时也在相似语言之间共享信息。参数生成器是通用的,允许以这种方式增强任何现有的
NMT 模型。此外,它具有以下所期望的特征:

神经机器翻译的背景(Background on Neural Machine Translation)

在过去,传统的基于短语的翻译系统通过将源语句拆分成多个片段然后将其逐句翻译来执行他们的任务。
这导致了翻译产出的不流畅,并不像我们人类翻译的那样。
我们阅读整个源句子,理解它的意思,然后产生一个翻译。
神经机器翻译(NMT)模仿的就是这种方式!

图片 1

图1.编码器 – 解码器架构 – 用于NMT的一般方法的例子。
编码器将源语句转换为通过解码器传递的“意义”向量以产生翻译。

具体而言,NMT系统首先使用编码器读取源句子来构建“思想”向量,表示句子含义的数字序列;
解码器然后处理句子向量以发出翻译,如图1所示。这通常被称为编码器 –
解码器体系结构。
NMT以这种方式解决了传统的基于短语的方法中的局部翻译问题:它可以捕捉语言的长期依赖性,例如性别协议;
语法结构等; 并通过谷歌神经机器翻译系统(Google Neural Machine
Translation
systems)展示了更流利的翻译。

NMT模型根据其确切的体系结构而有所不同。
对于序列数据,很自然的选择是大多数NMT模型所使用的递归神经网络(RNN)。
编码器和解码器通常使用RNN。 但是,RNN模型在以下方面有所不同:(a)方向性

  • 单向或双向; (b)深度 – 单层或多层; 和(c)类型 –
    通常是普通RNN,长期短期记忆(LSTM)或门控循环单元(GRU)。
    有兴趣的读者可以在这篇博文中找到关于RNN和LSTM的更多信息。

在本教程中,我们以单向的深度多层RNN为例,将LSTM作为一个递归单元。
我们在图2中展示了这样模型的一个例子。在这个例子中,我们建立了一个模型,将源句子”I
am a student”翻译成目标句子”Je suisétudiant”。
在高层次上,NMT模型由两个递归神经网络组成:编码器RNN仅仅消耗输入的源单词而不作任何预测;
另一方面,解码器在预测下一个单词的同时处理目标语句。

欲了解更多信息,我们向读者介绍本教程所基于的Luong
(2016)。

图片 2

图2.神经机器翻译 – 一个深度循环架构的例子,将源句子“I am a
student”翻译成目标句子“Je suistétudiant”。
这里,“<s>”表示解码过程的开始,而“</ s>”表示解码器停止。

使用 tf.contrib.data 中最新输入的管道对动态调整的输入序列进行预处理。

  1. 简单:类似 Johnson 等人(2017)和 Ha 等人(2016)的方法,且与 Luong
    等人(2016 年)和 Firat
    等人(2016a)的方法相反,它只需稍作修改就可以应用于大多数现有的 NMT
    系统,并且能够无缝地容纳注意力层。
  2. 多语言:和之前相同,允许使用相同的单个模型进行多语言翻译。
  3. 半监督:可以使用单语数据。
  4. 可扩展:通过在语言间使用大量但可控的共享来减少参数的数量,从而减少大量数据的需求,如
    Johnson
    等人所述(2017)。它还允许语言的解耦,避免对大量共享词汇需求,如 Ha
    等人所述(2016)。
  5. 适应性强:无需完全重新训练就可以适应新语言。
  6. 当前最先进的方法:比成对 NMT 模型和 Johnson
    等人的模型具备更好的性能。(2017
    年)。事实上,该方法优于最先进的性能。

安装教程(Installing the Tutorial)

要安装本教程,您需要在系统上安装TensorFlow。 本教程需要TensorFlow
Nightly。 要安装TensorFlow,请按照此处的安装说明进行操作。
一旦安装了TensorFlow,您可以运行以下命令来下载本教程的源代码:

git clone https://github.com/tensorflow/nmt/

使用批量填充和序列长度 bucketing,提高训练速度和推理速度。

作者首先介绍一个可用于定义和描述大多数现有 NMT
系统模块化框架,然后,在第 3
节中,将根据该框架介绍本研究的主要贡献,即语境参数生成器(CPG)。作者还论证了该方法使我们更接近普适的中间语言。

训练 – 如何建立我们的第一个NMT系统(Training – How to build our first NMT system)

首先,我们将深入探讨用具体的代码片断构建NMT模型的核心,我们将通过它更详细地解释图2。
我们将数据准备和完整的代码推迟到以后。
这部分是指文件model.py

在底层,编码器和解码器RNNs接收以下输入:首先是源句子,然后是指示从编码转换到解码模式的边界标记”<s>”
,和目标语句。
对于训练,我们会给系统提供以下张量,这些张量在时间上是主要格式,包含文字索引:

  • encoder_inputs [max_encoder_time,batch_size]:源输入单词。
  • decoder_inputs [max_decoder_time,batch_size]:目标输入单词。
  • decoder_outputs
    [max_decoder_time,batch_size]:目标输出单词,这些是decoder_input向左移动一个时间步,右边添加一个句尾结束标记。
    这里为了提高效率,我们一起训练多个句子(batch_size)。
    测试稍有不同,所以我们稍后再讨论。

使用通用结构和训练时间表训练 seq2seq
模型,包括多种注意力机制和固定抽样。

论文:Contextual Parameter Generation
for Universal Neural Machine Translation

嵌入(Embedding)

鉴于单词的分类性质,模型必须首先查找源和目标的嵌入来检索相应的词表示(word
representations)。
为了使这个嵌入层起作用,首先为每种语言选择一个词汇表。
通常,选择词汇量V,只有最频繁的V词才被视为唯一。
所有其他单词都转换为”unknown”标记,并获得相同的嵌入。
嵌入权重,每种语言一套,通常在训练中学习。

# Embedding
embedding_encoder = variable_scope.get_variable(
    "embedding_encoder", [src_vocab_size, embedding_size], ...)
# Look up embedding:
#   encoder_inputs: [max_time, batch_size]
#   encoder_emb_inp: [max_time, batch_size, embedding_size]
encoder_emb_inp = embedding_ops.embedding_lookup(
    embedding_encoder, encoder_inputs)

同样,我们可以构建embedding_decoder和decoder_emb_inp。
请注意,可以选择使用预训练词表示(例如word2vec或Glove
vectors)来初始化嵌入权重。
一般来说,给定大量的训练数据,我们可以从头学习这些嵌入。

使用 in-graph 集束搜索在 seq2seq 模型中进行推理。

图片 3

编码器(Encoder)

一旦检索出来,嵌入字就作为输入被输入到主网络中,主网络由两个多层RNN组成

  • 一个源语言的编码器和一个目标语言的解码器。
    这两个RNN原则上可以分享相同的权重;
    然而,在实践中,我们经常使用两个不同的RNN参数(这些模型在拟合大型训练数据集时效果更好)。
    编码器RNN使用零矢量作为其起始状态,并且如下构建:

    # Build RNN cell
    encoder_cell = tf.nn.rnn_cell.BasicLSTMCell(num_units)

    # Run Dynamic RNN
    # encoder_outputs: [max_time, batch_size, num_units]
    # encoder_state: [batch_size, num_units]
    encoder_outputs, encoder_state = tf.nn.dynamic_rnn(

      encoder_cell, encoder_emb_inp,
      sequence_length=source_sequence_length, time_major=True)
    

请注意,为避免浪费计算,句子具有不同的长度,我们通过source_sequence_length告诉dynamic_rnn确切的源句子长度。
由于我们的输入是时序重要的,我们设置time_major = True。
在这里,我们只建立一个单层的LSTM,encoder_cell。
我们将介绍如何构建多层LSTM,添加dropout,并在后面的章节中使用attention。

优化 seq2seq 模型,以实现在多 GPU 设置中的模型训练。

  • 论文地址:
  • 项目地址:

解码器(Decoder)

解码器也需要访问源信息,一个简单的方法就是用编码器的最后一个隐藏状态encoder_state来初始化它。
在图2中,我们将源语词“student”的隐藏状态传递给解码器端。

# Build RNN cell
decoder_cell = tf.nn.rnn_cell.BasicLSTMCell(num_units)

# Helper
helper = tf.contrib.seq2seq.TrainingHelper(
    decoder_emb_inp, decoder_lengths, time_major=True)
# Decoder
decoder = tf.contrib.seq2seq.BasicDecoder(
    decoder_cell, helper, encoder_state,
    output_layer=projection_layer)
# Dynamic decoding
outputs, _ = tf.contrib.seq2seq.dynamic_decode(decoder, ...)
logits = outputs.rnn_output

在这里,这个代码的核心部分是BasicDecoder对象、解码器,其接收decoder_cell(类似于encoder_cell),帮助器,以及之前的encoder_state作为输入。
通过分离出解码器和帮助器,我们可以重用不同的代码库,例如,可以用GreedyEmbeddingHelper代替TrainingHelper来进行贪婪的解码。
请参阅helper.py。

最后,我们没有提到projection_layer是一个稠密的矩阵,它将顶部隐藏状态转化为维数为V的logit向量。我们在图2的顶部说明了这个过程。

projection_layer = layers_core.Dense(
    tgt_vocab_size, use_bias=False)

下文我们将简要地介绍该 Github 教程项目。

摘要:我们对现有神经机器翻译(NMT)模型进行了简单修正,允许使用单个通用模型完成多种语言之间的翻译,同时允许语言特定的参数化,并且还可以用于域适应。我们的方法不需要改变标准
NMT
系统的模型架构,而是引入了新的组件,即语境参数生成器(CPG),可以生成系统的参数(例如,神经网络中的权重)。该参数生成器接受源语言嵌入和目标语言嵌入作为输入,并分别为编码器和解码器生成参数。模型的其余部分保持不变,并在所有语言中共享。我们展示了这种简单的修正如何使系统使用单语数据进行训练并实现
zero-shot 翻译。我们进一步表明,它能够超越 IWSLT-15 和 IWSLT-17
数据集的当前最佳性能,并且学习的语言嵌入能够发现语言之间的有趣关系。

损失(Loss)

基于上面的logits,我们现在准备计算我们的训练损失:

crossent = tf.nn.sparse_softmax_cross_entropy_with_logits(
    labels=decoder_outputs, logits=logits)
train_loss = (tf.reduce_sum(crossent * target_weights) /
    batch_size)

这里,target_weights是与decoder_outputs相同大小的0-1矩阵。
它将目标序列长度之外的值填充0。

重要说明:值得指出的是,我们用batch_size来分割损失,所以我们的超参数对batch_size是“不变的”。
有些人用(batch_size *
num_time_steps)来划分损失,减少了短句的错误。
更微妙的是,我们的超参数(应用于前一种方式)不能用于后一种方式。
例如,如果两种方法都使用SGD来学习1.0,则后一种方法有效地使用1 /
num_time_steps的更小的学习速率。

引言

图片 4

梯度计算和优化(Gradient computation & optimization)

现在我们已经定义了NMT模型的正向传播。 计算反向传播只是几行代码的问题:

# Calculate and clip gradients
params = tf.trainable_variables()
gradients = tf.gradients(train_loss, params)
clipped_gradients, _ = tf.clip_by_global_norm(
    gradients, max_gradient_norm)

训练RNNs的重要步骤之一是梯度裁剪。 在这里,我们在全局范围内进行裁剪。
最大值max_gradient_norm通常设置为5或1的值。最后一步是选择优化器。
Adam优化器是一个常用的选择。 我们也选择一个学习率。
learning_rate的值通常可以在0.0001到0.001之间; 随着训练的进行可以减少。

# Optimization
optimizer = tf.train.AdamOptimizer(learning_rate)
update_step = optimizer.apply_gradients(
    zip(clipped_gradients, params))

在我们自己的实验中,我们使用标准SGD(tf.train.GradientDescentOptimizer),其学习速率逐步降低,这样可以获得更好的性能。
参见
benchmarks。

未完待续

序列到序列(seq2seq)模型(Sutskeveret al., 2014, Cho et
al.,2014)在机器翻译、语音识别和文本摘要等任务上取得了巨大的成功。本教程致力于帮助读者全面掌握
seq2seq模型,并且展示了如何从头开始构建一个强大的 seq2seq
模型。我们该教程会注重神经机器翻(NMT)任务,神经机器翻译是
seq2seq模型很好的试验台,并且已经获得了广泛的成功。我们使用的代码是极其轻量、高质量、可投入生产并且结合了最新研究思路的实现。我们通过以下方式实现这一目标:

图 1:在我们的模块化框架下的 NMT
系统概述。我们的主要贡献在于参数生成器模块(即,耦合或解耦——具有蓝色字体的每个框是单独的选项)。注意,g
表示参数生成器网络。在我们的实验中,我们考虑该网络的线性形式。但是,我们的贡献并不取决于其他模块的选择;我们仍然可以将具有不同架构的参数生成器和不同类型的词汇表用于编码器和解码器。

使用最新的解码器/attention wrapper API、TensorFlow 1.2 数据迭代器。

图片 5

结合了我们在构建循环型和 seq2seq 型模型的专业知识。

表 1:我们提出的有基础成对
NMT(PNMT)模型的方法(阴影的一行)和用于 IWSLT-15 数据集的 Google
多语言 NMT
模型(GML)的比较。百分比的并列行显示训练时使用多少部分(1%、10%、100%)的平行语料库;其余的仅用作单语数据。表中显示了
BLEU 和 Meteor 指标的结果。CPG *表示与 CPG
相同的模型,但未使用自动编码训练样本进行训练。每种情况下的最佳分数加粗显示。

提供了可构建最好 NMT 模型的技巧,同时还复制了谷歌的 NMT(GNMT)系统。

图片 6

我们相信提供所有人都很容易复制的基准是非常重要的。因此,我们基于以下公开的数据集提供了全部的试验结果和预训练模型:

表 2:我们提出的有基础成对
NMT(PNMT)模型的方法(阴影的一行)和用于 IWSLT-17 数据集的 Google
多语言 NMT 模型(GML)的比较。因为 Meteor 不支持 It、Nl 和
Ro,所以仅显示了 BLEU 度量标准的结果,CPG8 表示使用 8 个语言嵌入来表示
CPG。「C4」下标表示用于受控参数共享的 CPG 的低级版本(参见第 3.1
节),使用等级 4 等。每种情况下的最佳得分加粗显示。

小规模数据集:TED 演讲的英语-越南语平行语料库(133K
个句子对),该数据集由 IWSLT Evaluation Campaign 提供。

本文为机器之心编译,转载请联系本公众号获得授权。返回搜狐,查看更多

大规模数据集:德语-英语平行语料库(4.5M 个句子对),该数据集由 WMT
Evaluation Campaign 提供。

责任编辑:

我们首先需要了解用于NMT 任务的 seq2seq
模型的基本知识,并需要理解如何构建和训练一个 vanilla NMT

模型。第二部分将更进一步详细地解释如何构建带注意力机制的强大神经机器翻译模型。然后我们会讨论构建更好神经机器翻译模型(翻译速度和质量)可能的技巧,例如TensorFlow
最好的实践方法(batching, bucketing)、双向循环神经网络和集束搜索等。

基础

关于神经机器翻译

以词组为基础的传统翻译系统将源语言句子拆分成多个词块,然后进行词对词的翻译。这使得翻译输出结果流畅性大打折扣,远远不如人类译文。我们会通读整个源语言句子、了解句子含义,然后输出翻译结果。神经机器翻译(NMT)竟然可以模仿人类的翻译过程!

图片 7

图片 8

图 1.
编码器-解码器结构——神经机器翻译的通用方法实例。编码器将源语言句子转换成「意义」向量,然后通过解码器输出翻译结果。

具体来说,神经机器翻译系统首先使用编码器读取源语言句子,构建一个「思想」向量,即代表句义的一串数字;然后使用解码器处理该容器,并输出翻译结果,如图1所示。这就是我们通常所说的编码器-解码器结构。神经机器翻译用这种方法解决以词组为基础的传统翻译系统遇到的翻译问题:神经机器翻译能够捕捉语言中的长距离依赖结构,如词性一致、句法结构等,然后输出流利度更高的翻译结果,正如谷歌神经机器翻译系统已经做到的那样。

NMT模型在具体的结构中会发生变化。对于序列数据而言,最好的选择是循环神经网络(RNN),这也被大多数
NMT模型采用。通常情况下,编码器和解码器都可使用循环神经网络。但是,循环神经网络模型在下列情况下发生变化:(a)方向性(directionality),单向或双向;(b)深度,单层或多层;(c)类型,通常是vanilla
RNN、长短期记忆(Long Short-term Memory,LSTM),或门控循环单元(gated
recurrentunit,GRU)。

感兴趣的读者可打开该网址(
RNN 和 LSTM 的更多信息。

本教程中,我们将以单向的深度多层RNN(deep multi-layer RNN)为例,它使用
LSTM 作为循环单元。模型实例如图
2所示。我们在该实例中构建了一个模型,将源语言句子「I am a
student」翻译成目标语言「Je suis étudiant」。该
NMT模型包括两个循环神经网络:编码器
RNN,在不预测的情况下将输入的源语言单词进行编码;解码器,在预测下一个单词的条件下处理目标句子。

若想参考更多信息,请查看
Luong(2016)(

图片 9

图 2. 神经机器翻译——一个深度循环结构实例:将源语言句子「I am a
student」翻译成目标语言句子「Je suis
étudiant」。此处,「」代表解码过程开始,「」代表解码过程结束。

安装该教程

为了安装该教程,我们需要先安装 TensorFlow。本教程需要最新的 TensorFlow
教程(目前为 1.2.1 版本)。为了安装
TensorFlow,请按照以下安装指导:

在安装 TensorFlow 之后,我们需要运行以下命令安装本教程的源代码:

git clone

训练-如何构建我们第一个 NMT 系统

我们首先需要了解构建一个 NMT 模型具体代码的核心,我们会在图 2
中更详细地讲解。我们后面会介绍数据准备和全部的代码,这一部分是指
model.py 文件。

在网络的底层,编码器和解码器 RNN
接收到以下输入:首先是原句子,然后是从编码到解码模式的过渡边界符号「」,最后是目标语句。对于训练来说,我们将为系统提供以下张量,它们是以时间为主(time-major)的格式,并包括了单词索引:

encoder_inputs [max_encoder_time, batch_size]:源输入词。

decoder_inputs [max_decoder_time, batch_size]:目标输入词。

decoder_outputs [max_decoder_time, batch_size]:目标输出词,这些是
decoder_inputs 按一个时间步向左移动,并且在右边有句子结束符。

为了更高的效率,我们一次用多个句子(batch_size)进行训练。测试略有不同,我们会在后面讨论。

1.嵌入

给定单词的分类属性,模型首先必须查找词来源和目标嵌入以检索相应的词表征。为了令该嵌入层能够运行,我们首先需要为每一种语言选定一个词汇表。通常,选定词汇表大小V,那么频率最高的
V个词将视为唯一的。而所有其他的词将转换并打上「unknown」标志,因此所有的词将有相同的嵌入。我们通常在训练期间嵌入权重,并且每种语言都有一套。

# Embedding

embedding_encoder = variable_scope.get_variable(

                  “embedding_encoder”, [src_vocab_size,
embedding_size], …)# Look up embedding:#   encoder_inputs:
[max_time, batch_size]#   encoder_emp_inp: [max_time,
batch_size, embedding_size]

encoder_emb_inp = embedding_ops.embedding_lookup(

                  embedding_encoder, encoder_inputs)

我们同样可以构建 embedding_decoder 和
decoder_emb_inp。注意我们可以选择预训练的词表征如 word2vec 或 Glove
vectors
初始化嵌入权重。通常给定大量的训练数据,我们能从头学习这些嵌入权重。

2.编码器

一旦可以检索到,词嵌入就能作为输入馈送到主神经网络中。该网络有两个多层循环神经网络组成,一个是原语言的编码器,另一个是目标语言的解码器。这两个RNN
原则上可以共享相同的权重,然而在实践中,我们通常使用两组不同的循环神经网络参数(这些模型在拟合大型训练数据集上做得更好)。解码器RNN
使用零向量作为它的初始状态,并且可以使用如下代码构建:

# Build RNN cell

encoder_cell = tf.nn.rnn_cell.BasicLSTMCell(num_units)

# Run Dynamic RNN#   encoder_outpus: [max_time, batch_size,
num_units]#   encoder_state: [batch_size, num_units]

encoder_outputs, encoder_state = tf.nn.dynamic_rnn(

                   encoder_cell, encoder_emb_inp,

                   sequence_length=source_seqence_length,
time_major=True)

注意语句有不同的长度以避免浪费计算力,因此我们会通过

source_seqence_length 告诉 dynamic_rnn
精确的句子长度。因为我们的输入是以时间为主(time

major)的,我们需要设定 time_major=True。现在我们暂时只需要构建单层

LSTM、encoder_cell。我们后面会详细描述怎样构建多层 LSTM、添加 dropout
并使用注意力机制。

3.解码器

decoder 也需要访问源信息,一种简单的方式是用编码器最后的隐藏态
encoder_state 对其进行初始化。在图 2
中,我们将源词「student」中的隐藏态传递到了解码器。

# Build RNN cell

decoder_cell = tf.nn.rnn_cell.BasicLSTMCell(num_units)

# Helper

helper = tf.contrib.seq2seq.TrainingHelper(

decoder_emb_inp, decoder_lengths, time_major=True)# Decoder

decoder = tf.contrib.seq2seq.BasicDecoder(

                      decoder_cell, helper, encoder_state,

                     output_layer=projection_layer)# Dynamic
decoding

outputs, _ = tf.contrib.seq2seq.dynamic_decode(decoder, …)

logits = outputs.rnn_output

此处代码的核心是 BasicDecoder、获取 decoder_cell(类似于 encoder_cell)
的 decoder、helper 以及之前作为输入的 encoder_state。

发表评论

电子邮件地址不会被公开。 必填项已用*标注