Introduction To Bayesian Network
Bayesian Network
Factorization
接下来进入的就是贝叶斯网络的学习了,在之后 的笔记里面,基本上使用的也是下面的这个学生-成绩模型的网络结构
可以看出,该网络的结构之中有五个不同的网络节点,分别是
- Difficulty:课程的难易程度
- Intelligence:学生的智力水平
- Grade:学生的成绩
- SAT:学生的SAT的成绩
- Letter:是否获得推荐信
根据图中的简单的假设,课程的难易程度没有其他的因素所决定,仅仅是一个随机变量$D$,其概率为$P(D)$,同理,智力也是$P(I)$.成绩由难度和智力所共同决定,所以是一个条件概率,记作$P(G|I,D)$.而SAT的成绩可以认为仅仅和智力有关,所以是$P(S|I)$,获得推荐信的概率仅仅与成绩的多少有关,所以记作是$P(L|G)$.
整个图的状态,可以由$P(D,I,G,S,L)$所表示,而$P(D,I,G,S,L)$可以被分解为
$$P(D,I,G,S,L) = P(D)P(I)P(G|I,D)P(S|I)P(L|G)$$
所以整个图可以被分解为Factor的乘积的形式。
所谓的贝叶斯网络是
- 一个有向无环图(DAG)G ,其节点表达了随机变量$X_1,\cdots, X_n$
- 每一个节点$X_i$他都有条件概率分布(CPD,Conditional Probability Distribution) $P(X_i|Par_{G(X_i)})$
通过运用链式法则于贝叶斯网络上
$$P(X_1,\cdots ,X_n) = \prod_i P(X_i|Par_G(X_i))$$
由于每一个CPD都是大于0的,所以他们的乘积也是大于零的,所以贝叶斯网络的分布是大于0的。而由于
$$\sum_{Nodes}P(X_1,\cdots,X_n) = 1$$
所以贝叶斯网络之中的所有的概率的可能性之和是1.
令$G$是一个有节点$X_1,\cdots,X_n$的图,如果P可以满足
$$P(X_1,\cdots,X_n) = \prod_i P(X_i|Par_G(X_i)) $$
的条件,我们称$P$ Factorizes Over G.
Flow of Probabilistic Influence
以上面的那张图作为分析的样例。
分成下面的集中情况讨论
- 如果考试的难度已知,可以预计考试的成绩会有较大的下降。所以信息可以从$D\rightarrow G$
- 如果考试的成绩较高,那么很有可能这次考试的难度就不是很难,所以信息可以从$G\rightarrow D$
- 如果这个学生的SAT的成绩不错,可以推测其智力可以,从而推测出他的课程成绩也会很高,所以信息可以从$S\rightarrow I \rightarrow G$
- 如果学生的智力已知很高,可以推断他可以获得一个很好的课程的成绩,所以他获得推荐信的可能性也会很高,所以信息可以从$I\rightarrow G \rightarrow L$
- 同理信息可以从$L \rightarrow G \rightarrow I$
- 但是信息能否从智力流到难度呢?我们来尝试推理一下,如果智力高,可以知道他的成绩会蛮高,但是能否再导到课程的难度上面去呢?这个是不行的,由于我们没有实际获得成绩的信息,所以无法对于课程的难度做出正确的评价,事实上在这里通过直觉也可以判定,课程的难度高低与否和学生的智力肯定是独立的两个变量。在这里信息就是被Block了,无法流动。
所以可以直观的得出一个结论就是
一条通道(Trail)是活动的(Active):
仅当该通道$X_1 – X_2 – \cdots – X_n$不存在$V-Structure$,也就是不存在如 $X_i \rightarrow X_{i+1} \leftarrow X_{i+2}$的时候。
但是如果有更多的信息的时候,比如知道中间的节点了,就和上面的情况相反了。 比如如果给出了成绩的信息的时候,智力的信息就可以流动到难度的上面去,这个道路就变成了Active的了。而其他的时候,比如已经知道智力的信息了,SAT的信息就不能够通过借道智力对于成绩造成影响了,因为SAT对于Garde的作用是通过智力而传导成功的,一旦智力知道了,SAT就成了”敝履”。
所以对于上面的定理进行修补一下
一条通道(Trail)在给定Z的情况下是活动的(Active):
- 仅当该通道$X_1 – X_2 – \cdots – X_n$的$V-Structure$,也就是其$X_i \rightarrow X_{i+1} \leftarrow X_{i+2}$的结构之中的$X_{i+1}$或者其后代节点在$Z$之中的时候。
- 其他的节点都不在$Z$之中
首先给出独立(Independence)的定义:
对于事件$\alpha, \beta$而言 ,$P\models \alpha \perp \beta$,当且仅当
- $P(\alpha,\beta) = P(\alpha) \cdot P(\beta)$
- $P(\alpha|\beta) = P(\alpha)$
- $P(\beta|\alpha) = P(\beta)$
时,成立。
而条件独立就是,在给定$C$的情况下,$X_1$与$X_2$相互独立。简记为
$$P \models (X_1 \perp X_2 | C)$$
在独立的情况下,有
$$P(X,Y) = P(X) P(Y)$$
在条件$(X\perp Y |Z)$的情况下,有
$$P(X,Y,Z) \propto \phi_1(X,Z)\phi_2(Y,Z)$$
如果要对于分布$P$进行Factorization的话,隐含了$P$之中的独立性存在的事实。
I-Maps
如果在网络图之中,存在一种概念称为$D-Separation$,所谓的$D-Separation $也就是说,在给定$Z$的情况下,$X$与$Y$之间无法形成有效的通道。记作
$$D-Sep_G(X,Y|Z) $$
如果$P$ Factorizes over G,并且$D-Sep_G(X,Y|G)$,那么有
$$P \models(X_1 \perp X_2 | C)$$
这个也很简单的证明,以学生-成绩图为例
$$P(D,S) = \sum_{G,L,I} P(D)P(I)P(G|D,I)P(S|I)P(L|G)\\
= \sum_I P(D)P(I)P(S|I) \sum_{G}P(G|D,I) \sum_{L}P(L|G)\\
= P(D)\sum_{I}P(I)P(S|I)\\
= \phi_1(D)\phi_2(S)$$
所以$D$与$S$是独立的。
如果一个图$G$之中的所有的节点都满足$D-Separation$,我们就称这个图为$I-Maps$,记作
$$I(G) = \{(X\perp Y|Z :D-Sep_G(X,Y|Z)\}$$
如果分布$P$满足$I(G)$的话,就称$G$是$P$的一个$I-Maps$.
所以
如果$P$可以Factorizes over $G$的话,$G$就是$P$的一个$I-Maps$.\par
同理,如果$G$是$P$的一个$I-Maps$,那么$P$可以Factorizes over $G$.
Naive Bayesian
朴素贝叶斯模型可以看成是下面的这样一个模型
其中的每一个$X_i$相对于$X_j$在给定$C$的情况下都是独立的变量,记作
$$(X_i \perp X_j | C)\qquad \forall X_i,Xj $$
朴素贝叶斯算法常常使用在分类问题之中,在分类的时候$C$一般指的是样本的Label的种类,而$X_i$则是每一个具体的观察到的Feature的属性。\par
在给定$X_i$的情况下,分类为$C$概率为
$$P(C,X_1,X_2,\cdots ,X_n) = P(C)\prod_{i=1 }^{n}P(X_i|C)$$
其中$P(C)$是一个先验(Piror)的概率,代表了$C$在总体之中所占的比例(蒙对的可能性),而后面的$P(X_i|C)$则是如果给定$C$的情况下,其特征为$X_i$的概率。将他们相乘,则是整个图出现的可能性。然后对于各种图的相对大小进行比较,得出最有可能的情况,即
$$\frac{P(C=c^1|x_i)}{P(C=c^2)|xi} = \frac{P(C=c^1)}{P(C=c^2)}\prod_{i=1}\frac{P(xi|C=c^1)}{P(x_i|C=c^2)} $$
Comments
Leave a Comment