【Beyond Polarity: Interpretable Financial Sentiment Analysis with Hierarchical Query-driven Attention】
Deloitte的一篇Paper,有点尴尬,当时百度了半天没找到这篇论文,然后去Arxiv上面找也没找到这篇Paper,蛮冲动的就给德勤的合伙人发了个Email问他这个论文的名字是什么,结果后面灵机一动在Google上面找就找到了,还是太冲动了,不过德勤在他们的那个微信推送那儿理应也要附上论文的Reference,直接给一个FISHQA谁知道在哪(强行解释),希望以后不要关我小黑屋吧。下面是论文的介绍
本文也是一个对于情感分析的文章,不过是Financial Domain的文章,和普通的情感分析处理感情的极性有一点点的不同,财经相关的分析是旨在寻找到一个Market Confidence Indicators以判断市场的走向,而在语料的特点上面应该也是有所区别的,对于财经相关的文本内容有其自身的专业性在其中,这也使得利用传统的NLP方法很难直接迁移来使用。还有一点就是在财经文本对于Context信息的考虑会比在日常的文本之中要更加重要一些。
传统的处理财经领域的NLP方法自然也考虑了上面的这些因素,但是他们仍然还是有不足的,不足之处主要体现在了两点上面,第一点就是他们直接给了一个情感极性作为最终的结果,但是在现实生活之中,人们在做出Financial Decision的时候,Sentiment Analysis的结果仅仅是一个中间步骤,我们需要不仅仅是一个最终的判断,而深度学习的可解释性可能也不能够给我们提供足够多的信息。而第二点就是一个财经文本里面可能涵盖了不同的公司的不同的方面的信息,使用仅仅一个Positive和Negative来判别是远远不够的,希望得到的是A公司的现金流状况或者是B公司的杠杆状态的这些更加Specific的信息。
而作者为了解决这样的问题,提出了一种框架叫做FISHQA(FInancial Sentiment analysis network with Hierarchical Query-driven Attention)
FISHQA
模型的整体架构如下所示
现在我们分层来介绍FISHQA
Embedding Layer
我们将一篇文章认为是由$d = \{s_1, s_2,\cdots ,s_n\}\in D$所组成的,其中的$D$是所有的文章的集合,而$s_{t}$则是句子的Embedding表示,在文章之中认为一个句子是由$l$个单词所构成的,每一个单词都使用以词向量进行表示。上面的是NLP里面的常规的流程了,但是在本文之中还有一个不同的机制,是Query机制,在文章之中存在两组Query分别是Word Level的Query和Sentence Level的Query.按照同样的方法得到他们的Embedding表示留着以后使用。
Sequence Encoder
单词通过Bi-GRU获得了句子的表示,句子通过了Bi-GRU获得了文章的表示。这也都是常规的流程了,公式说明的我也不贴了,就是传统的流程了。
Hierarchical Query-Driven Attention
文章的重头戏了,全文的创新的点就在这了。假设我们从第$t$个句子之中得到了一个单词$w_{t,i}$,将其丢进了一个Embedding之中。然后经过Bi-GRU里面得到了Hidden 表示
对于第$i$个Query$\{w_{i,1}’ , w_{i,2}’ , \cdots , w_{i,l}’\}$其由下面的向量表示
$$q_{i} =\sum_{j=1}^{l} x_{i,j}’$$
其中的$x_{i,j}’$表示的是其Embedding形式。得到Query的Representation$q_i$
其中的$h_t$是$(h_{t,1} , h_{t,2},\cdots, h_{t,l}^{T}$.其实从本质上来看,这里也就是一个External Attention的概念吧。通过External Attention得到了最终的句子表示$s_t$.
然后同样是使用上述的流程得到文档的表示。
输出层就是一个FC层了。
而Query的选择就是学问了,在这里有两个不同的Query的选择分别记作是$Q_1$和$Q_2$.
$Q_1$表示的是不同的Financial Related Risk,而第二个表达的是General的Focus.全都是经过手工选择的单词或者是人工创建的句子。最后的结果的现实也是比普通的要好很多(不好肯定也上不了IJCAI)
最后的可视化的结果也很漂亮
通过颜色的深浅判断该句子属于哪个Aspects之中。
Comments
诶,模型感觉确实没有什么新颖的吧,可能是自己看多了模型所以觉得可以看见很多其他模型的影子,不过组合起来还是非常有意义的吧。自己感觉可能起主要贡献的是Word Level的Query而不是Sentence的Query,首先对于Sentence 的Embedding就是一个还没有很好的解决方案的问题,通过与Query计算Attention的方式得到的结果归根到底可能也还是对于Word Level的一个重复和组合。自己的推测应该是通过Attention的方法使得模型考虑了更多的Financial Domain的信息从而使得模型可以更好的应对财经领域的任务了。
本模型可能也还并没有解决句子之中的对于不同实体的预测的问题,不过这个也得上NER进行句子的分割之后才可以处理吧。可能要类似于AMR之类的技术帮忙,希望自己可以在这个基础上再做一些进展吧。读的这种Domain Specific的文章越多越感觉到知识图谱的重要性吧。
Comments
Leave a Comment