Press enter to see results or esc to cancel.

【Reinforced Rewards Framework for Text Style Transfer】

本文讲的是Text Style迁移的问题,文中融入了强化学习的框架以帮助更好的处理风格迁移之中的问题。在传统的方法之中还是使用Sequence-to-Sequence的方法或者再加入一些对抗学习的方法来处理,这种方法是基于对于Style和Content有明显的Disentanglemnt即存在人为的区分的。最近还有一种处理方式在没有Disentanglement的情况下也进行了Style Transfer的工作。但是不管是哪种,他们都是一种Word-Level的工作,而没有考虑到整个Sequence的Level.所以作者就使用强化学习的方法考虑了一个风格的整体迁移的方案。

Framework

作者使用的方法之中的输入序列选择的是某一个风格$s_1$的输入句子记作是$x = x_1,\cdots , x_{l}$,将其转移成为风格$s_2$的输出句子,记作是$y = y_1,\cdots , y_{l}$,作者整体上使用了Copy-enriched Sequence-to-Sequence 的模型框架,当然使用了最火的Attention机制,在训练的时候,该模型接受Source style以及Target Style作为 Encoder-Decoder的输入。句子之中的单词嵌入了一个词向量的空间,而句子嵌入了一个Attention based – LSTM空间之中。而Decoder接受到了Hidden Information之后,使用RNN和PTR指针网络的结合进行Decode,其中的RNN可以看成是在单词层面进行处理,而指针网络则可以看成是在Context的水平上面进行处理。数学表达的形式如

$$P_{t}(w) = \delta P_{t}^{RNN}(w) + (1-\delta) P_{t}^{PTR}(w)$$

其中的$\delta$的计算是基于Encoder的输入与Decoder的Hidden States的,我们的模型通过在不同的时间步选择最有可能的单词来进行风格的迁移,其损失函数可以写成是

$$L_{ml} = -\sum_{t=1}^{m}\log(p(P_{t}(y_{t}^{*})))$$

其中的$m$表示的是输出的句子的长度,而其中的$y^*$是在输出句子之中的ground truth 单词。整个的流程可以看成是如下

 

Rewarding Content Preservation

为了保证我们的迁移风格的有效性,作者使用了Self-Critic Sequence Training(SCST)并且以BLEU作为Reward函数。SCST是一种用在强化学习之中的Policy Gradient的方法。

作者会输出两个Output Sentences分别是$y^s$以及$y’$,其中的$y^s$是来自于分布$p(y_{t}^{s} |y_{1:t-1}^{s},x)$之中而$y’$则是一个Baseline模型,其通过在每个时间步贪心最大化输出分布而得到。通过下面的公式计算一个损失函数以优化

$$L_{cp} =(r(y’)  – r(y^s) )\sum_{t=1}^{m}\log (p(y_{t}^s|y_{1:t-1}^{s},x  ))$$

但是这仅仅是保证输出的句子像是一句话,还有一个部分不能忽视的就是我们的任务的目标,也就是保证风格是合理的。

Style Classifier:Rewarding Transfer Strength

为了生成指定的目标风格的句子,在SCST框架之下利用一个损失函数进行调节当然是可行的,但是其需要一个对于Target Style有一个Formal Measure,而这个可能是一个比较复杂的工作。所以作者用CNN训练了一个风格分类器,风格分类器输出该句子属于某一个风格的概率,以其作为一个Measurement.

其中的$s(y’)$是预测器对于$y’$所预测得到的Score,但是这里的高和低作者没有明说,自己的猜测是对于输出的风格是0,1这种,而0或者是1仅仅是代表风格的Indicator,而高或者是低没有实际意义,所以使用上面的这个函数来分别处理不同的情况。

Training and Inference

整体的Loss可以看成是三个Loss函数的组合

$$Loss = \alpha L_{ml} + \beta L_{cp} + \gamma L_{ts}$$

通过三个参数来调节对于三种不同的目标的渴望。

Comments

文章引入了强化学习的方法帮助风格进行迁移,不得不说强化学习是一种非常有意思的方法,在很多的时候,一些函数是不可导的,但是为了将其引入模型之中,作为我们的一个目标呢,我们可以将其作为一个Reward,然后使用Policy Gradient的方法引入模型之中,而作者使用CNN的输出的结果指导模型的训练也还是一个很有意思的方法,这种Ensemble的方法在后续可能也会更加广泛的被应用吧。

 

Reference

Reinforced Rewards Framework for Text Style Transfer

 

Comments

Leave a Comment