Press enter to see results or esc to cancel.

【Which bills are lobbied? Predicting and interpreting lobbying activity in the US 】

文章所做的工作是通过对于颁布的相关法案的相关文本内容进行处理,预测其被Lobby的可能性。美国的相关法律规定了在相关法案的设定的过程之中,被Lobby的相关活动理应要披露给公众,因此也就获得了相关的数据。

这种应用类的文章自己感觉也是非常有价值的,一旦将模型训练出来了,其应用价值可能不仅仅是对于本国的人民有用,而是存在着巨大的可迁移的价值。比如说本文在美国的数据上进行训练,因为美国的相关的法律法规规定了需要对于相关的内容进行披露。但是有一些其他的国家并没有类似的法律法规,这时候我们如果将在美国的模型上面训练的结果迁移到其他的模型上面,也是非常具有指导意义的,接下来就看看他在处理的时候的所选择的方法。

Approach

文章之中对于方法并没有什么创新的部分,所以我也就直接讲其实验部分的处理方法吧。其从美国Center fro Responsive Politics的官网下载了所有的数据。并且对于相关的Bills涉及的领域进行了一个简单的分类。并且对于Bills所涉及的Sponsors进行了统计,并以此作为是否被Lobby的依据。在文章之中对于所有的Bills分成了三类,第一类是存在Lobby,第二类是超过10笔Sponsor,第三类是超过50笔Sponsor。

并按照上面的方法对于所有的Bills进行One-Hot编码。

接下来的处理就是传统的NLP的套路了,首先是清洗数据,然后套词向量,这里分别选择了TF-IDF,BOWs,Glove还有Law2Vec(应该是一个Domain-Spectic Vector)作为特征。然后分别将其用LR、LSTM、CNN进行处理后预测。而最后的结果如下所示

结果倒是让人蛮吃惊的,毕竟使用Logistic Regression的结果和用LSTM的结果似乎也没什么太大的差别,甚至在AUC的指标上还要更高一些。可能在文本分类上面的模型并没有如此大的要求吧。自己以后也可以再尝试一下使用一些简单的模型进行处理吧。

然后作者再基于逻辑回归的结果对于回归的结果进行了分析,由于逻辑回归的前面的Co-eff是有实际意义的,所以作者选择系数最大的那些单词就可以知道是哪些词语透露出该法案可能被Lobby了。

比如说上图就是一个用逻辑回归的输出的结果,也就是在Foreign Trade and International Finance上的最重要的那些特征。除了上面的这些机器学习里面的常规操作,作者还尝试了交叉验证来处理Un-Labeled的数据。在美国国会的官网上面还存在着81998条没有进行标注的数据,而有13217条已经标注的数据。为了对于是否存在着Lobby进行预测,作者使用了交叉验证的方法。对于81998条数据进行5-Fold的Cross Validation。具体的流程如下

对于每一个Iteration,选择一个Fold假装其是Non-Labeled数据,然后基于这个假设再对于其他的数据进行预测,那么经过了5个Iteration之后,对于每一个数据我们都可以获得4个预测值,然后取平均值作为最后的预测输出。

Comments

文章的思路不难,不过还是蛮有意思的,里面有几个点还是可以说道说道的,也可以展望一下未来,当可以在不同的语言之中的Embedding Space可以对齐了之后,模型的迁移就不仅仅是在同语言之间的迁移了,而是也可以在跨语言的数据之间进行一些迁移了,不过这个应该还有很长的路要走吧。

还有一个点就是在作者的实验结果之中有一个点就是其使用逻辑回归的结果和LSTM的结果非常的接近,甚至在某些程度上还优于LSTM的结果,这个点还是非常的有意思的,似乎是对于唯模型论的一个反击吧。也给自己敲响了一个警钟,模型一定是服务于数据的,使用复杂的模型一定要有理由,而不是为了追求方法的Fancy,共勉。

Reference

Which bills are lobbied? Predicting and interpreting lobbying activity in the US

 

 

 

 

Comments

Leave a Comment