【The Evolution of 10-K Textual Disclosure: Evidence from Latent Dirichlet Allocation 】
今天没事在Journal of Accounting and Economic (JAE)上面找了蛮多的会计学方面的文章来看,总的来说里面还是有非常多的有趣的内容的,当然,其中也有不少与NLP相关的内容,只是说可能这里的内容还是利用一些非常经典的算法进行处理,比如说这一篇文章中使用的LDA,自己今天找文献的时候,从名字里面再见到的另外的一个模型还有HMM,可能PGM based的算法的可解释性还是比较受人待见的吧。废话不多说来看文章:
Introduction
在资本市场上面的人都对于年报的冗杂颇有微词。在2013年,SEC对于年报之中的文字进行了一次调查,旨在评估年报的质量,无独有偶,FASB也有一个计划以评估Textual Disclosure的有效性。所以作者也尝试使用一些自然语言处理的技术来帮助分析在市场上面的那些文本的内容,作者在本文之中选用的工具相信如果是之前一直有看过我的文章的朋友们肯定不会陌生,是2003年由Blei和Andrew NG发明的LDA模型,在自然语言处里面属于是一名老将了。
而作者认为LDA一旦训练好了之后可以分辨Paragraph所属的Topic,所以可以进一步的以Paragraph为Level探索10-K之中的内容。作者使用的训练集是由1996年到2013的10452家公司的75991份年报所构成了,的确称得上是大数据了。作者一开始并不是使用LDA直接蛮干,而是通过使用前人所构建的指标来看看这些年来的文本在宏观的特征上面的变化。比如说Length,也就是10K的长度;还有Readability,这里使用的是Miller在2010年的构建的指标还有Boilerplate,Redundancy,Specificity,Stickiness和相对而言比较硬核的Information。自己所有了解的可能只有Length、Readability以及REdundancy吧,其他的指标都还不是那么的熟悉。
文章之中将所有的主题数分成了150个,其中分别对应了13个不同的主题。分别如下
Why have Textual Attributes Changed Overtimes
在正式处理问题之中,我们首先分析问题,我们推测年报之中的语言特征可能会随着时间洪流的流淌而不断的改变。但是为什么呢?第一,很有可能是由于所选择的样本的组成架构发生了改变,比如说现在越来越多的新的“概念”公司都有很多的无形资产,其需要更长以及更复杂的语言进行描述,所以就使得市场之中的公司的普遍的会用更加复杂的语言。或者也有可能是经济的基本面的一些变化,比如说公司的复杂性,运用杠杆的水平,规模大小等等都有关,当然作者在后面也对于这个做了一个验证的方法就是做Regression,回归的结果如下
通过回归的方式确实是可以发现在公司的之中的某些特征和文本的语言的特征之间会存在着一种很强的相关性。但是这种粗枝大叶的分析或许也还并不够,所以作者采用了LDA的方法来探讨之中的细致性的内容。作者的选择LDA的参数的方式也是基于Perplexity的方式,Perplexity近年来的确受到了许多人的批评,但是不得不承认这的确是一种比较经典和有效的度量标准。
作者尝试分了150,200,250种不同的主题,并且发现了这个150个Topic的模型具有最好的解释的能力(其选择的标准当然是基于人类的主观的判断的标准),但是150个主题确实是非常巨大的数字,所以作者尝试将这150个Topic再分成不同的Categories之中,这里总共有13个大类,在上面都有说。但是就算是采用了这种的方法,整个的模型的运作也是一个非常的主观的过程,毕竟在LDA之中找到了150个不同的主题并且对于他们分别分配了一些特定的Text的过程是一个需要人的处理的过程。
而经过上面的处理之后,有三种Topics的变化最为明显,分别是FV/Impairment , Internal Control , Risk Factor Disclosure 而这三种都属于Compliance with SEC and Accounting Standards这个Categorial之中,所以作者在之后的论证也还是大部分的都基于对于上面的这三个最大的种类的Topic的分析为主。
而在Topic上面的改变反映了什么呢?是不是可以在一定程度上说明了披露的要求呢?通过截取在某系法案颁布前后的数据可以发现,相关的词语的确有一个较大的变化的幅度,似乎可以证明法律法规的相关颁布是可以直接的影响相关的内容。
作者同样采用了另外的一个办法就是考虑Non-US Company的那些样本公司,因为他们并非是受到了相同的监管的法规的影响,所以其调查了16038家非US的公司年报,并且使用LDA模型处理他。结果表明在内控和风险控制模块似乎在这并不存在明显的改变,但是在公允价值那一块却出现了类似的现象,作者推断这是由于会计准则的改变所导致的变动。就算不是同样的一套会计准则,但是根据趋同性,还是会出现一定的改变。
作者认为可以将LDA应用在其Substs上,就是说可以使用LDA在Paragraph的层次上面。这样做的正确性暂且不表,但我感觉可能是会出现一些问题的。如果对于所有的Paragraph都采用了LDA进行Inference的话,那么就可以对于所有的Paragraph都分配一个Topics,然后对于不同的Topic都给出一个特定的Textual Characteristic.
从上图可以发现在内控里面的Redundancy的程度是最高的。而在Risk里面的Hard Information是最多的。这个思路还是不错的,可以更加细致的分析不同的种类之中的文字的传统的特征,属于一个结合。
Comments
本文确实还是一个不错的文章,尝试将LDA引入在会计年报之中的分析,虽然LDA还是一个老旧的模型,不过使用的还是比较的灵活,里面的一些假设的简化虽然是似乎没有什么数学上的根据而是直接使用,不过也应该是可以经得起推敲。LDA的BOW的假设是制约分析准确度的一个瓶颈。但是如果加上其他的假设就没办法简单的处理。LDA之后的研究自己看的也不多,但如果是可以考虑到上下文的处理的方式应该有更精确的效果吧,也可以做一些更加有意思的判断的方法。
Reference
The Evolution of 10-K Textual Disclosure: Evidence from Latent Dirichlet Allocation
Comments
Leave a Comment