【A plain English measure of financial reporting readability】
文中认为一种新的对于文章之中的可读性的度量的标准,也就是Bog Index可以更加广泛的被应用于年报之中的相关的文本的分析之中。随着现在的研究对于会计文本的特征的挖掘越来越受到了关注,研究者们却没有什么趁手的工具,能够使用的,比如说Gunning在几十年前所发布的Fog Index,又或者是仅仅简单的对于Size的进行的简单的度量。所以作者希望可以在一定的程度上对于文本的处理的方法进行拓展。只不过这里的改进的方法即Bog还是评估在文本之中的Readability的水平。
在1998年的时候SEC就出台了相关的指引希望公司在披露年报的时候可以使用更加Plain的语言特征以提高阅读者阅读的简易性。而作者认为Bog Index就是完全跟随着SEC的相关的规定所设计出来的一个可能的度量标准。需要注意的是Bog指数并不是作者所发明的一个评价标准,而是一个称为StyleWriter的软件内置的一个度量标准。作者所做的工作更像是简单的扩展与论证这样的一个指数的优越性,使其可以应用在分析的任务之中。
Measurement
由于是Readability的一个任务,绕不开的就是Fog指数,这是一个非常朴素的计量的方式
Fog Index = 0.4(Average Number of Words per Sentence + Percentage of Complex Words)
也就是通过在文章之中的平均的句子长度以及那些复杂的单词的占比的数量进行构建。但是很多时候这里的Complex的单词仅仅是通过长度进行确定的,而在商业领域很多的专有名词虽然是很长的但是绝对称不上是Complex或者会对于读者的阅读进行混淆。
对于Bog的处理的方式也是和Fog的思路很类似,写成了下面的这种形式
Bog Index = Sentence Bog + Word Bog – Pep
在上面的公式的第一项指的是句子程度的Bog,思路是更长的句子会带来更高的Bog Index,但是这里的计算的方式并不是直接使用句子的长度,而是通过对于其长度进行平方然后除以一个Standard的Sentence Limit Length也就是35个单词。而对于第二个Term也就是Word Bog, 由两个主要的成分组成,第一个成分是Plain English Stype Problems还有一个是Word Difficulty.具体来说,其计算的方法是将Plain English Style Problems的数量与困难的单词的数量加和后乘250除以总共的词语的个数。对于Plain English Style Problem是根据SEC的Plain English Handbook之中的指引进行的。而困难的单词的计量则也不仅仅是通过单词本身的长度也同时考虑了单词之间的联系。
而在公式之中的最后的一项,也就是Pep,其所判断的是读者所可以阅读文章并且理解文章的程度,具体的做法是通过判断在文章之中使用的那些可以勾起读者的阅读兴趣的单词的多少。Pep的计算是通过统计数量之后乘25然后除以文档之中的总单词的数量加上Sentence Variety.
当然在研究的发展之中不仅仅是有Bog或者是Fog,还有两位大佬就是LM这两位,也给出了他们的相关的研究的度量标准,本文的作者对于LM的研究的方法进行了一定程度上的改进之后将其分成了六个Part分别是平均的句子长度,平均的单词的长度,消极的单词的占比,法律词汇的占比,Personal Pronuns的占比,以及出现的Plain English的问题在所有的单词之中的数量。通过对于上面的这六个Component在所有的文档内进行归一化之后,作者将其加起来作为一个最终的LM的Index.
Result
本文的看点当然也是在最后的结果的分析上面而不是在于其特征的构造上。首先就是对于Bog这个指数的有效性的一个验证,为了不受其他的因素的影响,作者在这里做了严格的控制变量,将文本分成了两组,在两组文本之中具有相同的单词数,相同的File Size,相同的Formatting,甚至是相同的Fog指数.
然后作者尝试在Amazon’s Mechanical Turk上面招募志愿者来帮助进行试验,AMT可以看成是一个自动化的处理和标注数据的外包平台,或者可以看成是人工的人工智能。作者认为在这样的一个平台上面进行处理而不是用会计专业的学生进行处理会更好的代表美国民众的平均水平,但是在这点上我有一些疑问就是,在Accounting Standard Framework之中的Readability或者说是Understandability的对象指的是有一定的会计素养的人,而不是说什么人都可以看懂,当然这里作为一种替代的变量也不是不可以。
实验的设计流程如下,作者通过选择三家最容易读的公司的年报的片段以及三家最不容易阅读的公司的片段,随机给志愿者一个简单的,再给一个难得,让他们对比着打分(这里的难易的标准是基于Bog指数)。实验的验证的结果如下
可以发现根据作者的结果表明,Bog指数的确可以起到区分的效果。但是需要注意的一件事情是,在这里所选择的公司是根据Bog选择出来的最容易的和最简单的,可以看成是一个极差之类的东西,两组公司之间的Bog Index相差超过了80分,但是最后的打分的结果还不到1,似乎可以证明其差距的确是有,但是这个差距的程度似乎也并不是那么的大。
作者通过可视化的方法处理了十几年来不同的Index的变化的图像如下所示
同时作者也对于在1998年前后的公司的相关的Bog指数的变化的情况进行处理了,分组看在前后的语言特征是不是出现了一定的变化
实验证明在相关的法律法规推出的时候对于公司的文本披露的情况也是造成了一定的影响的。
当然提出一个新的指标当然要看看对于资本市场的相关的影响,所以其处理的方式是使用发布年报前后的股价的波动和Alpha的水平,超额收益等指标来看是否可以一定程度上的对于市场的情况进行预估。下图就是回归的结果,其中的RMSE就是年报发布后的六天内的股票波动的平均值
在上表之中可以发现其实回归的结果虽然显著但是其系数的程度真的是不高。
Comments
属于传统的会计的文本处理的论文,整个的逻辑也非常的清晰(简单?)通过构建变量,然后对于变量的有效性进行检验,然后看变量时候可以一定程度上的解释市场。套路还是这个套路,但是自己对于变量的有效性的程度还是有一些存疑的,毕竟不管怎么说,通过志愿者的双盲实验得到的结果虽然其差距是有的,但是这个的差距是最高的和最低的Bog Index的问题的值。这里的变量的选择可能还需要进行一定的斟酌,而在对于资本市场的变动的预测的这一块所得到的结果当然也并没有那么的尽如人意,虽然其显著,但是其系数并不高,只能作为一个趋势的判断。但是相比于其他的指数,比如说Fog或者是LM的Index,其已经做得非常的不错了,相对于其他的参数来说也已经表现的很好了。
会计里面的使用的方法似乎还是停留在构建特征的方法啊,这种传统的方法虽然也使用了很多有趣的Trick和蛮Straightforward的,但是其效果可能还是难以评价。之后可能Context Based的方法的引入也可以做出更多的有趣的结果吧。
Reference
A plain English measure of financial reporting readability
Comments
Leave a Comment