Press enter to see results or esc to cancel.

【Using unstructured and qualitative disclosures to explain accruals 】

作者认为在传统的方法之中,大量的研究者人为的构建了大量的文本特征,或是基于词典的方法或是基于统计的方法又或者需要人工的选取和打标。而本文认为SVR automates identification of narrative patterns that occur in conjunction with firm fundamentals(SVR不也是需要特征工程吗?这里有点迷),本文选择的样本是MD&A,MD&A相比于10-K来说的话,其信息的密度会更高,但是毫无疑问的,其含有的信息的总量是更低的。所以如果大家想要做相关研究的话,就得在这两个之间取舍了,不过以现在的自然语言处理领域的相关的技巧还是可以在10-k上面做出不错的结果的。

Method

其模型的方法属于两步走,第一步是通过SVR预测Accurals,通过训练可以得到了一个Learned SVR,然后将相关的特征丢进去,通过模型的转换得到一个Pseudo Accurals , 再经过OLS判断这个Pseudo Accurals能不能很好的判断Accruals.

SVR大家相信都不是很陌生,可以理解为SVM改了改就成为了SVR来做相关的回归的分析,而在这里的话,其输入的特征是什么呢?自己还是比较惊讶的,是所有的单词在文章中的词频,也就是一个长度为|V|的向量,其中的|V|是词表的大小。

个人感觉这里的维度会特别的大,而作者为了解决这样的问题呢,从根源上下手,通过削减词表的大小的操作而降低输入的向量的维度,怎么削减呢?作者所统计的词汇仅仅是那些出现在了超过十篇MD&A之中的词汇,也就是说,如果这个单词的出现的次数不高的话,就丢弃这些低频词。这里的10篇的标准的设置还是没有给出Motivation,如果可以在文章之中给出不同的单词出现在不同的文章之中的篇数的话,然后用可视化的方法给出选择的标准可能会让人更加信服一些。

总之作者就开始了其进行预测之路,作者在这里还有一个简单的分类的预测的方式,就是这里的预测并非是整个市场的预测,而是分成不同的行业然后对于不同的行业进行分别的预测,然后再进行全市场的预测。系数最高的那些单词如下所示

经过上面的这些操作之后我们已经获得了一个训练好了的SVR模型,接下来要做的事情就是做一个OLS来判断SVR的能力。

公式如下

如果SVR的效果很好的话,我们认为其值会趋向于1,而如果在预测的过程之中出现了其他的各种各样的问题,我们认为其前面的系数会小于1.而在作者的回归结果之中其发现模型的$R^2 = 0.097$也就是说大概有百分之十的波动可以被SVR的结果所解释。

看到了我们的模型的能力之后,接下来要做的事情就是去对比,和不同的模型对比看看我们的模型能不能体现出一定的优越性。作者首先选择的模型是Dechow and Dichev在2002年所发明的模型。

这里的CFO并非是说公司的财务官而是指Cash Flow in Operation .而这里的Neg CFO是一个Indicator的变量,如果说CFO小于0的话就是1.作者根据上面的公式做了两个实验,分别是包括和不包括SVR的结果,相比于不包括SVR的结果的OLS,包含了SVR的结果的OLS的$R^2$增加了24.8% .

而接下来的作者所要做的实验则是再构建一个SVR,但是在这里的SVR并不是使用之前的词典的大小,而是使用一个Accounting Dictionary,之所以使用这样的一个字典是因为作者想探究在模型之中的效果有多少是来自于和会计相关的文本的,而有多少是来自于普通的文本的。而根据实证结果表明如果不考虑会计的专业词汇也不会对于模型的结果造成较高的影响。也就是说会计相关的词汇在模型的预测的过程之中也并非是提供了主要的解释力。

作者在后面也同样对于那些传统的文本特征,诸如是Tone或者是Readability的解释能力都进行了验证。当然也发现了这些传统的指标在其构建的MDA Accurals存在的时候的解释能力都并不高。

除了上面的这些工作以外,作者还做了另外的一项工作,就是对于公司的未来的现金流进行预测。同样是使用之前的那种套路,训练好了SVR之后做一个预测,然后再放进OLS之中

结果如上所示,可以看起来做的还是不错的。而对于不同的年份的MD&A都做相关的分析的话,可以发现其解释能力表示成为下图的形式

也就是说,文本里面的内容随着时间的推移而越来越可以在一定程度上解释Accurals的相关的变化。

Comments

用SVR来做这个模型还是有点意思,不过既然已经使用了SVR了为什么不再去上个神经网络啥的,毕竟感觉SVR在整篇文章之中也仅仅是一个黑箱子,并没有起到什么实质性的解释性的影响。而文章之中的使用如此高维的向量来预测输出的话,似乎也并没有什么问题,只不过这种编码方式仍然是基于Bag-of-Words的假设的吧。也就是没有考虑到上下文的这种关系,但是说实话如果使用神经网络来做的话,可以可视化的来做的话只有Attention机制了,不过感觉就算是使用Attention机制来做的话也可以达到很漂亮的结果啊。这里的文章学到的最重要的一课就是学会了这种两阶段的处理方式来更加细致的处理数据吧。

Reference

Using unstructured and qualitative disclosures to explain accruals

 

 

 

 

Comments

Leave a Comment