Introduction To Bayesian Network

Bayesian Network

Factorization

接下来进入的就是贝叶斯网络的学习了，在之后的笔记里面，基本上使用的也是下面的这个学生-成绩模型的网络结构

可以看出，该网络的结构之中有五个不同的网络节点，分别是

Difficulty:课程的难易程度
Intelligence:学生的智力水平
Grade:学生的成绩
SAT:学生的SAT的成绩
Letter:是否获得推荐信

根据图中的简单的假设，课程的难易程度没有其他的因素所决定，仅仅是一个随机变量$D$,其概率为$P(D)$,同理，智力也是$P(I)$.成绩由难度和智力所共同决定，所以是一个条件概率，记作$P(G|I,D)$.而SAT的成绩可以认为仅仅和智力有关，所以是$P(S|I)$,获得推荐信的概率仅仅与成绩的多少有关，所以记作是$P(L|G)$.

整个图的状态，可以由$P(D,I,G,S,L)$所表示，而$P(D,I,G,S,L)$可以被分解为

$$P(D,I,G,S,L) = P(D)P(I)P(G|I,D)P(S|I)P(L|G)$$

所以整个图可以被分解为Factor的乘积的形式。

定义 1.

所谓的贝叶斯网络是

一个有向无环图(DAG)G ,其节点表达了随机变量$X_1,\cdots, X_n$
每一个节点$X_i$他都有条件概率分布(CPD,Conditional Probability Distribution) $P(X_i|Par_{G(X_i)})$

通过运用链式法则于贝叶斯网络上

$$P(X_1,\cdots ,X_n) = \prod_i P(X_i|Par_G(X_i))$$

由于每一个CPD都是大于0的，所以他们的乘积也是大于零的，所以贝叶斯网络的分布是大于0的。而由于

$$\sum_{Nodes}P(X_1,\cdots,X_n) = 1$$

所以贝叶斯网络之中的所有的概率的可能性之和是1.

定义 2.

令$G$是一个有节点$X_1,\cdots,X_n$的图，如果P可以满足

$$P(X_1,\cdots,X_n) = \prod_i P(X_i|Par_G(X_i)) $$

的条件，我们称$P$ Factorizes Over G.

Flow of Probabilistic Influence

以上面的那张图作为分析的样例。

分成下面的集中情况讨论

如果考试的难度已知，可以预计考试的成绩会有较大的下降。所以信息可以从$D\rightarrow G$
如果考试的成绩较高，那么很有可能这次考试的难度就不是很难，所以信息可以从$G\rightarrow D$
如果这个学生的SAT的成绩不错，可以推测其智力可以，从而推测出他的课程成绩也会很高，所以信息可以从$S\rightarrow I \rightarrow G$
如果学生的智力已知很高，可以推断他可以获得一个很好的课程的成绩，所以他获得推荐信的可能性也会很高，所以信息可以从$I\rightarrow G \rightarrow L$
同理信息可以从$L \rightarrow G \rightarrow I$
但是信息能否从智力流到难度呢？我们来尝试推理一下，如果智力高，可以知道他的成绩会蛮高，但是能否再导到课程的难度上面去呢？这个是不行的，由于我们没有实际获得成绩的信息，所以无法对于课程的难度做出正确的评价，事实上在这里通过直觉也可以判定，课程的难度高低与否和学生的智力肯定是独立的两个变量。在这里信息就是被Block了，无法流动。

所以可以直观的得出一个结论就是

定理 3.

一条通道(Trail)是活动的(Active):

仅当该通道$X_1 – X_2 – \cdots – X_n$不存在$V-Structure$，也就是不存在如 $X_i \rightarrow X_{i+1} \leftarrow X_{i+2}$的时候。

但是如果有更多的信息的时候，比如知道中间的节点了，就和上面的情况相反了。比如如果给出了成绩的信息的时候，智力的信息就可以流动到难度的上面去，这个道路就变成了Active的了。而其他的时候，比如已经知道智力的信息了，SAT的信息就不能够通过借道智力对于成绩造成影响了，因为SAT对于Garde的作用是通过智力而传导成功的，一旦智力知道了，SAT就成了”敝履”。

所以对于上面的定理进行修补一下

定理 4.

一条通道(Trail)在给定Z的情况下是活动的(Active):

仅当该通道$X_1 – X_2 – \cdots – X_n$的$V-Structure$，也就是其$X_i \rightarrow X_{i+1} \leftarrow X_{i+2}$的结构之中的$X_{i+1}$或者其后代节点在$Z$之中的时候。
其他的节点都不在$Z$之中

首先给出独立(Independence)的定义:

定义 5.

对于事件$\alpha, \beta$而言，$P\models \alpha \perp \beta$，当且仅当

$P(\alpha,\beta) = P(\alpha) \cdot P(\beta)$
$P(\alpha|\beta) = P(\alpha)$
$P(\beta|\alpha) = P(\beta)$

时，成立。

而条件独立就是，在给定$C$的情况下，$X_1$与$X_2$相互独立。简记为

$$P \models (X_1 \perp X_2 | C)$$

在独立的情况下，有

$$P(X,Y) = P(X) P(Y)$$

在条件$(X\perp Y |Z)$的情况下，有

$$P(X,Y,Z) \propto \phi_1(X,Z)\phi_2(Y,Z)$$

如果要对于分布$P$进行Factorization的话，隐含了$P$之中的独立性存在的事实。

I-Maps

如果在网络图之中，存在一种概念称为$D-Separation$,所谓的$D-Separation $也就是说，在给定$Z$的情况下，$X$与$Y$之间无法形成有效的通道。记作

$$D-Sep_G(X,Y|Z) $$

定理 6.

如果$P$ Factorizes over G,并且$D-Sep_G(X,Y|G)$,那么有

$$P \models(X_1 \perp X_2 | C)$$

这个也很简单的证明，以学生-成绩图为例

$$P(D,S) = \sum_{G,L,I} P(D)P(I)P(G|D,I)P(S|I)P(L|G)\\
= \sum_I P(D)P(I)P(S|I) \sum_{G}P(G|D,I) \sum_{L}P(L|G)\\
= P(D)\sum_{I}P(I)P(S|I)\\
= \phi_1(D)\phi_2(S)$$

所以$D$与$S$是独立的。

如果一个图$G$之中的所有的节点都满足$D-Separation$，我们就称这个图为$I-Maps$,记作

$$I(G) = \{(X\perp Y|Z :D-Sep_G(X,Y|Z)\}$$

如果分布$P$满足$I(G)$的话，就称$G$是$P$的一个$I-Maps$.

所以

定理 7.

如果$P$可以Factorizes over $G$的话，$G$就是$P$的一个$I-Maps$.\par

同理，如果$G$是$P$的一个$I-Maps$,那么$P$可以Factorizes over $G$.

Naive Bayesian

朴素贝叶斯模型可以看成是下面的这样一个模型

其中的每一个$X_i$相对于$X_j$在给定$C$的情况下都是独立的变量，记作

$$(X_i \perp X_j | C)\qquad \forall X_i,Xj $$

朴素贝叶斯算法常常使用在分类问题之中，在分类的时候$C$一般指的是样本的Label的种类，而$X_i$则是每一个具体的观察到的Feature的属性。\par

在给定$X_i$的情况下，分类为$C$概率为

$$P(C,X_1,X_2,\cdots ,X_n) = P(C)\prod_{i=1 }^{n}P(X_i|C)$$

其中$P(C)$是一个先验(Piror)的概率，代表了$C$在总体之中所占的比例(蒙对的可能性)，而后面的$P(X_i|C)$则是如果给定$C$的情况下，其特征为$X_i$的概率。将他们相乘，则是整个图出现的可能性。然后对于各种图的相对大小进行比较，得出最有可能的情况,即

$$\frac{P(C=c^1|x_i)}{P(C=c^2)|xi} = \frac{P(C=c^1)}{P(C=c^2)}\prod_{i=1}\frac{P(xi|C=c^1)}{P(x_i|C=c^2)} $$

Introduction To Bayesian Network

Bayesian Network

Factorization

Flow of Probabilistic Influence

I-Maps

Naive Bayesian

Written By

XuxinLi

Tags

Comments

Leave a Comment

取消回复

MUST READ – 需知

Please Search you interested article

Recommend Reading

Classification-文章分类

Recent Article

Label Cloud

功能