【Economic Event Detection in Company-Specific News Text】
文章看名字就像是一个序列标注的任务吧,也就是发现在新闻之中的经济事件,在过去的研究者所采用的方法一般是使用Rule-based或者是Pattern-Based的方法进行处理,但是这两种方法也存在着很多的问题,比如说这种方法所建立的数据库将是一个非常耗时的活动,并且定义这种Strict的Rule进行决策的话也会导致整个模型的Recall比较低,因为毕竟是人所设置的规则所以无法涉及到方方面面。
所以作者就使用机器学习的方法把这个当成是一个序列标注的任务进行处理,对于英语的语料,其在Financial Times 上面下载了英语的新闻文章,这些英文的文章,限定于七所选取的公司,共计有497篇新闻文章其中包含了2522个事件。需要注意的是,在文章之中其将事件的种类简单的分成了十类,包含了公司的经营活动的各个方面。当然,初始的训练集之中的事件的选取也是由专家所处理的。标注之后的数据如下所示
文章之中如果没有被标注的数据就简单的用一个标签”No Event”进行表示。文章里面的Label的分布如下
Experiment
实验部分就蛮简单了,并没有提出什么新的模型,而是使用SVM以及LSTM进行序列标注了。
SVM
对于SVM其输入的特征是分成几类,比如说Lexical Feature以及Syntactic特征
其中的Lexical 特征包括 token n-gram features (uni- grams, bigrams and trigrams), character n-gram features (trigrams and fourgrams), lemma n-gram features (unigrams, bigrams and trigrams), disam- biguated lemmas (lemma + associated PoS-tag), and a set of features indicating the presence of nu- merals, symbols, and time indicators (e.g. yester- day).
而Syntactic Features则包括 binary (presence of category in the instance), ternary (category occurs 0, 1 or more times in the instance) and total number of occurrences of the respective PoS-label. In addition, similar features (binary, ternary, and frequency) were extracted for 6 different Named Entity types: person, organization, location, product, event, and miscellaneous.
上面就简单的复制一下,也没有什么好讲的。
然后输出的预测就是不同的Label.
LSTM
LSTM也没啥可以说的,用Glove处理一些单词,然后做多分类的就完了。
感觉其结果还是不错的吧,特别是那些特征比较明显的Class在做预测的时候都可以得到接近满分的结果,但是对于那些比较难的任务做的就不是很好了。
数据集的位置到也挺好,给我们提供了https://osf.io/enu2k/
Comments
本文在技术上也没有什么提升,感觉其贡献也就是提供了一个新的数据集吧,不过很多的这种问题如果看成是序列标注的问题,然后再去做的话,也会看到之前被忽视的点吧。
Comments
Leave a Comment