【DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data】
这个论文讲的是关于事件抽取的,在NLP里面的事件抽取还是一个蛮重要的任务,这个讲的就是在金融领域的一个事件抽取的方法。
但是对于金融领域事件抽取来说,还是有非常多的问题的,比如说数据的缺少以及抽取往往是在Document Level进行的,在现有的算法之中,EE往往是对于Sentence Level的文本进行Extraction,但是在金融的Text之中,事件往往是会通过多个Sentence同时进行表达的,文中说这个比例是91%.
那么接下来看看作者是如何解决这个问题的。
Methodology
先看看整体的处理的框架是什么样的
整个的Framework分成了两个Component,分别是Data Generation,即自动的在文本之中进行标注,并且从Sentence之中抽取Annotate的Arguments。而得到了数据之后就会丢到EE系统之中,其中包含了Sentence-Level的EE和Document-Level的EE。
Data Generation
在文章之中使用到了两种Data Resource,分别是Financial Event Knowledge DataBase,其中存储了很多的结构化和非结构化的数据。本文使用Financial Event Knowledge DB的方法是使用它的结构化的数据,其有一张表格,包含了九种常见的Financial Event的类型,并且定义了其中会出现的Key Event Arguments,然后参照这个对于文字进行Label,文中以Equity Pledge,即股权质押的事件作为例子,其中的Key Argument包括了股东的名字,质押的机构,质押的数量以及日期
通过丢进他的数据库就可以得到上图之中的这样的Annotate的结果。
而被Annotation的数据由两个部分组成,Sentence Level以及Document Level的,其中的Sentence的数据通过Label Event Trigger以及Event Argument实现,那么现在的问题就是如何找到这些Event Trigger呢?现在能做的就是构建字典了,构建完之后就可以自动标注了。不过我倒是挺馋他代码的,没开源就是可惜了。
Event Extraction
Sentence Level Event Extraction(SEE)
文中将SEE看成是一个序列标注的任务,对于Sentence表示成为BIO的格式,其中的每一个Character即Event Trigger,Event Arguments 都被标注为B,而I就是之内的标注,O就是之外的其他的。文中用的是经典的Bi-LSTM+CRF的搭配了
在上图的模型的结构之中的黄色的部分就是CRF与LSTM的经典组合了,在本文之中的处理的语义基本单元是字级别的。
Document Level Event Extraction
DEE有两个部分组成,第一个部分是Key Event Detection Model,其旨在发现在文章之中所含有的那些Event,而如何发现呢,其输入由两部分组成,一个是SEE所抽取出来的蓝色部分,另一个是其句子所对应的向量表示,这两个向量进行Concat然后丢进CNN之中,最后将他们判断为是不是Key Event.
Comments
文章看完其实看得不是特别的明白,有很多的地方都有些含糊其辞吧,可能也是由于自己的水平还是不够所以看不明白。比如说在最后的部分依旧是一个句子,但是这里怎么做到Arguments Completion的呢?之前的词典的抽取的部分好像也不是讲的特别的清楚,只是有一个大概的介绍,不过文章的总体的想法还是非常的好的吧,只是自己能力还是不足没读懂之中的细节。
Reference
Comments
Leave a Comment