【The Semantics of Change as Revealed Through an Examination of Financial Accounting Standards Amendments】
回归老本行,看看NLP与会计的一个交叉的内容。全文的使用的方法在现在看来的确是有些稚嫩了吧,不过其研究的方向还是一个有意思的内容。作者发现,对于会计准则的理解的程度影响了会计信息的理解的程度。而FASB在2003年的时候发现了Understandability和信息检索的Effective 和 Efficient是紧密联系的。所以FASB为了其设定的会计准则可以更好的实施,所以创建了一个标准的数据库以支持更好的信息的检索。
本文的目的有两个,第一个是看是不是可以使用LSI结合Hierarchical Agglomeration Clustering算法可以发现那些具有相似的会计准则。而第二个目的则是验证通过Clustering算法得到的结果是不是可以支持其之前的理论结果。
本文的流程也是属于传统的文本挖掘的范畴,首先是Text Identification and Representation , 然后对于Document进行Ranking ,然后进行Classification 再对于结果进行Analysis.
Approach
Text Identification and Preprocessing
文章之中选择了三个主要的领域,分别是Pension , Lease 和Tax,这三个领域之中的相关的数据来自于FARS(Financial Accounting Research System )这个数据库之中。对于在上面的这三个领域之中的Amendment,作者都打上了一个Tag所以他们就被抽取了。整个处理的流程如下
抽取了之后,使用NLP的技术去除数字和Stop words之后,统计相关文档内的词频,对于所有的文档都统计完了词频之后就可以建造一个Term-Document Matrix了
对于上面的这个矩阵执行LSI,选择合适的K值之后就可以得到Term Vector 和 Document Vector,也就达到了降维的目的。相比于原始的矩阵而言,这里的方法当然是会丢失一些的信息但是事实上,通过SVD进行降维之后还是可以去除一些噪声,而低维度也可以帮助我们对于文档更好的建模。
然后得到了Document矩阵之后,应该是SVD之中的右矩阵,就可以对于其进行聚类分析了。这里采用的聚类算法叫做是Agglomeration Clustering算法,大致的思路就是先把不同的文档都看成是一个单独的类,然后通过计算两两之间的相似度,将相似度最高的两个类结合成为一个新类,然后循环往复,直到最后成了一个整个的类,这个的思路也非常的朴素啊。而且可以构成一个树状图的结构,也可以比较好的被人所解释,不过这里的模型的最终的效果还是很大程度上受到了度量标准的影响。
经过LSI之后,通过最后的可视化可以做成下面的这种形状的图片
然后作者对于里面的内容解释了一波,并按照Fisher在2004年的分类把所有的文档都归类成为了不同的类别之中
Comments
本文的大概的思路就是通过SVD的方法获得一个Document的表示,然后通过层次化的聚类的方式得到不同等级的类别,不过这里使用的LSI也属于早期的方法吧。可能通过深度学习的方式获得一个General 的Representation会对于效果有一定的提升吧。而且感觉LSI的可解释性也并没有特别的强烈,其易于理解的程度仅仅是在于推导过程的层面的,但是对于后续的可视化之类的似乎也没有特别好的效果。
Comments
Leave a Comment