Press enter to see results or esc to cancel.

【An Incremental Explanation of Inference in Bayesian Networks for Increasing Model Trustworthiness and Supporting Clinical Decision Making】

全文感觉没啥创新的,只是对于贝叶斯网络有一个梳理和应用的工作,还是蛮有意思的。

里面有一些基础的知识,这里还是简单的介绍一下吧。第一个概念叫做马尔科夫毯(Markov Blanket),可能大家也接触过这个概念,不过还是再介绍一下,对于一个网络我们可以分成三个部分,点$A$集合$B$与集合$X$,如果给定集合$B$的时候$A$与集合$X$是条件独立的,那么集合$B$就叫做是$A$的马尔科夫毯,之前在网上看见过一个概念,很形象,我们和社会上的每一个人都可以建立起联系,但是我们和世界上的所有的人的联系的建立是通过一些中间人而达成的,那么这些中间人就是马尔科夫毯,下面是一个图像化的表示。

 

本文的工作主要是利用贝叶斯网络的可解释性来处理实际问题,贝叶斯网络是一个非常经典的概率图的模型了,而概率图模型天生就长于解释各种因果和关联。对于可解释性的处理主要可以有下面的这几种

  1. 度量Evidence 变量对于Target的Impact的强弱
  2. 确定一个阈值以筛选要放在可解释性流程之内的那些变量
  3. 对于支持和反对的那些Evidence进行区分
  4. 解释信息的一层层流动的过程

Evidence Impact

变量对于最终结果的影响是不同的,度量Evidence的Impact可以看成是增加了该Evidence变量之后对于Target的概率分布的造成了什么样的影响。那么通过比较前后的概率的KL散度就可以看到该Evidence所造成的影响了,而这种方法也叫做INSITE Method.

Significance Threshold

阈值的选择是一个非常主观的事情,一个简单的方法是让模型的使用者去选择一个阈值,但是就算模型的使用者是一个专家,但是可能还是很难对于不同的阈值有一个直观上的理解。如果是让变量们按照重要性的程度排队下来的话,很有可能也会使得解释的过程变得复杂。

Conflict Analysis

作为一个研究人员当然也想要知道在这儿的那些Evidence对于最终的预测产生了正向还是负向的作用的效果。有一种方法就是通过和添加所有的Evidence的结果分布的Shift进行比较,如果是同向的,那么就认为是Support,如果是反向的,那么就认为是Conflict.

Chains of Reasoning

这里的问题可以直接借鉴一下上面的方法,或者说是一个推广吧,我们之前是看Target的变化,但是在这里我们可以对于Chains之中的每一步都进行计算。不过感觉这里很有可能会忽略掉因素之间的协同作用的影响吧。而通过剪枝的方法就可以探索那条道路最能够创造出最有效的结果。

 

可以看到这些方面的处理或多或少的也都存在着一些问题,所以我们的作者自然也是要在这上面进行一些改进了吧。

Generating an Incremental Explanation of Reasoning

首先我们再对于模型进行一个总览,在每一个场景下,都有一个Target Variable $T$还有一堆观测到了的变量$E$和没有观测到的隐变量$I$.被我们选择来解释模型的变量叫做解释变量$X$,$X$之中对于结果$T$有明显作用的变量记作是$E_{sig}$,还有一些作为Intermedia 但是也是对于结果有很重要的影响的变量记作是$I_{sig}$,所以$X = I_{sig}\cup E_{sig}$

由于有这样的设置,所以作者的模型相比于原来的模型可以在下面的这些点上面达到提升

  1. Significant Evidence Variables:由于我们选择出来了Evidence Variables $E_{sig}$所以对于那些有显著影响的变量给了一个容身之处。这些变量我们同样可以将其分成两类,第一类是显著的正向影响,第二类是显著的负向的影响。
  2. Information Flow:由于区分了I和E所以,我们可以相比于原来的模型一定程度上的更加简单的把握信息流动的特性
  3. Significant Evidence Impact on the Intermediate Variables:在模型之中同样可以评估E对I的影响,比如是正向还是负向的影响。

Level 1 : Significant Evidence Variables

为了在这个方面进行改进,作者需要回答的问题是”How does each Evidence affect the target?’,为了回答这样的一个问题,我们首先需要确定一种对于Impact度量的标准,然后再给出一个阈值。

作者的思路和前人类似,通过移出某些变量来判断其影响力的大小

$$Im_{E}(e_{i}) = D(P(T|E) || P(T|E\backslash e_{i})  )$$

其中的$E\backslash e_{i}$代表的是扣除$e_i$之后的所有Evidence.

那么移出所有的Evidence之后可以得到

$$Im_{E}(E) = D(P(T|E) || P(T) )$$

这里的距离的度量标准可以是KL散度,但是作者认为KL散度不合适(也没给原因)所以使用Hellinger Distance进行度量

其连续状态的度量为

其选择的理由主要是在于这个距离是一个对称且非负的度量标准吧。

给定了距离的度量之后接下来要做的事情就是给出一个阈值$\theta$了。给出阈值是一个非常主观和困难的问题,理应是要和环境结合起来处理的。所以作者引入了一个后验分布记作是$G$,$G$可以看成是在没有Evidence和有所有的Evidence之间的一个中间值。这个中间值有多中间则是一个需要人来判断的超参数就是了。

而阈值就可以直接认为是$D_{H}(P(T|E) || G )$了。

Level 2: Information Flow

为了评估信息的流动,我们先得建立一些Hidden Variable 记作$I$,这些变量的选择的标准也很直接,如果这些变量是Unobseraved的而且Part of a d-connected path from $E_{sig}$ to $T$的话,我们就认为这个是一个Hidden Variable,然后就可以通过建立Chain来分析信息流了。

Level 3:Significant Evidence Impact on the intermediate Variable

对于Level2的变量使用Level1的方法就得到了Level3的结果。

Comments

贝叶斯派的一个优点是可以更好的处理低资源的任务,不过如果贝叶斯网络建立的太大的话,这样的一个优点可能就容易被埋没了。而且感觉贝叶斯对于结构化的数据的要求远远比深度学习的那一套来的更加严格,在处理非结构化数据的时候并没有神经网络方便。自己倒也没有关注最近的贝叶斯这一块的进展了,思想可能也停留的比较古板吧,以后可以再Follow最新的看看。

 

 

 

 

 

 

Comments

Leave a Comment