贝叶斯和信息推断

11 Jun 2024 •

Probability-Theory

贝叶斯定理和信息推断原理。

最大似然估计陷阱

最大似然估计（Maximum Likelihood Estimation, MLE）是一种常用的参数估计方法。

在实际应用中，假如现在有一个观测现象\(A\)，我们已经得到多个原因\(B_1, B_2, \cdots, B_n\)，我们倾向于认为\(P(A\|B_i)\)最大的那个\(B_i\)是最有可能导致\(A\)的原因，因为\(B_i\)提供的信息能够最好地解释\(A\)。这种思想就是最大似然估计。

事实上，这种推断的思维忽略了一个重要的问题：我们并不知道\(B_i\)的先验概率，即原因本身发生的概率。如果\(B_i\)的先验概率极低，即使\(P(A\|B_i)\)很高，也不能说明\(B_i\)是最有可能导致\(A\)的原因。

贝叶斯推断

\[P(B_i\|A) = P(B_i)\frac{P(A\|B_i)}{P(A)}\]

即：

\[P(\text{原因i}\|\text{现象}) = P(\text{原因i})\frac{P(\text{现象}\|\text{原因i})}{P(\text{现象})}\]

我们观测到的是：某个现象（\(A\)）
我们想要知道的是：在这个现象（\(A\)）发生的前提下，是原因（\(B_i\)）的概率

其中有几个概念：

先验概率（Prior）：\(P(B_i)\)，即原因\(B_i\)本身发生的概率，这和我们观测的现象是无关的
似然概率（Likelihood）：\(P(A\|B_i)\)，即在原因\(B_i\)成立时，观测到该现象\(A\)出现的概率，似然概率描述了原因\(B_i\)对现象\(A\)的解释能力
后验概率（Posterior）：\(P(B_i\|A)\)，即在观测到现象\(A\)之后，原因\(B_i\)成立的概率，也就是我们想要得到的结果

因此，对一个现象而言，对于每个原因我们应该比较其先验概率和似然概率的乘积。

先验概率

先验概率作为在观测到现象之前的概率，在很多情况下，先验概率比似然概率更重要。

奥卡姆剃刀

奥卡姆剃刀（Occam’s Razor）：“如非必要，勿增实体”。即在众多假设中，应该选择最简单的那个。

对现象\(A\)而言，我们有很多个原因\(B_i\)能够很好地解释现象，可以认为这些原因的似然概率\(P(A\|B_i)\)都很高（接近于1）。

所以，我们应该选择那个先验概率\(P(B_i)\)最高的原因\(B_i\)，也就是最简单的那个。

汉隆剃刀（Hanlon’s razor）：“能解释为愚蠢的，就不要解释为恶意”。这与奥卡姆剃刀类似，即在众多解释中，应该选择先验概率最高的那个。

外部视角

在评估任务时，外部视角代表了在不考虑执行任务本身及其细节的情况下，对任务的评估。

此时可以这么理解：\(后验概率=先验概率\cdot标准化后的似然概率\)，外部视角理解为先验概率，内部视角理解为似然概率。

我们往往可以通过很多证据在内部视角支持任务，即这些原因的似然概率很高。但是在似然概率都很高的情况下，我们应该选择那个先验概率最高的原因。

锚定效应

对某件事做定量评估时，会将特定数值作为起始值。起始值会像锚一样制约对事物的评估。

在贝叶斯推断中，先验概率就是锚。通过对先验概率的锚定（改变），改变了对事物的评估。

观测

获得先验概率

通过历史数据获得
通过同类经验

改变先验概率

一个观测信息量可以理解为先验概率和后验概率的差异，对认知的改变量。

单纯提高似然概率，不能扭转先验。结合全概率公式：

\[P(B_i\|A) = P(B_i)\frac{P(A\|B_i)}{P(A)} = P(B_i)\frac{P(A\|B_i)}{\sum_{i=1}^n P(A\|B_i)P(B_i)}\]

只考虑一对互斥的原因：

\[P(H\|A) = P(H)\frac{P(A\|H)}{P(A\|H)P(H)+P(A\|\bar{H})P(\bar{H})}\]

假如我们让似然概率趋近于1，即\(P(A\|H)\)趋近于1，那么：

\[P(H\|A) = P(H)\frac{1}{P(H)+P(A\|\bar{H})P(\bar{H})}\]

可以明显的看出，只提高似然概率，不能改变先验概率。在上面的公式中，如果想要扭转先验（让后验趋近于1），需要让\(P(A\|\bar{H})\)趋近于0，让\(\bar{H}\)完全不能解释现象\(A\)。

信息量

当前观测的信息量大小，体现在这个标准化的似然概率上：

\[\frac{P(A\|B_i)}{\sum_{i=1}^n P(A\|B_i)P(B_i)}\]

两种情况可以改变先验概率：

\(B_i\)完全不能解释现象\(A\)，即\(P(A\|B_i)\)趋近于0
除了\(B_i\)，其他所有原因都完全不能解释现象\(A\)，即\(\sum_{j=1,j\neq i}^n P(A\|B_j)P(B_j)\)趋近于0

只有排他性证据才能产生信息量大的观测。

用比较通俗的角度说：

一个观测虽然可以用某个观点解释，但不能用来提高对这个观点的信心，因为其他的观点也能解释这个观测
一个观测虽然不能用某个观点很好地解释，但不会降低对这个观点的信心，因为其他的观点也不能很好地解释这个观测

多观测贝叶斯

条件独立

若\(A\)和\(B\)关于\(C\)条件独立，则：

\[P(A,B\|C) = P(A\|C)P(B\|C)\] \[P(A\|B,C) = \frac{P(A,B\|C)}{P(B\|C)} = \frac{P(A\|C)P(B\|C)}{P(B\|C)} = P(A\|C)\]

即如果事件\(A\)和\(B\)在给定条件\(C\)下是独立的，那么在\(V\)发生的条件下，\(B\)的信息不能够帮助我们更好的推断出\(A\)发生的概率。

现实中，很多事情看似是相关的，实则关于某个隐藏变量是条件独立的
现实中，很多事情看似是独立的，实则关于某个隐藏变量是条件独立的

贝叶斯公式

只考虑条件独立下：

\[P(B_i\|A_1,A_2,\cdots,A_n) = P(B_i)\frac{P(A_1,A_2,\cdots,A_n\|B_i)}{P(A_1,A_2,\cdots,A_n)}\]

若只看两个观测：

\[P(H\|A_1,A_2) = P(H)\frac{P(A_1,A_2\|H)}{P(A_1,A_2)} = P(H)\frac{P(A_1\|H)P(A_2\|H)}{P(A_1,A_2)} = P(H)\frac{P(A_1\|H)P(A_2\|H)}{P(H)P(A_1\|H)P(A_2\|H)+P(\bar{H})P(A_1\|\bar{H})P(A_2\|\bar{H})}\]

在线贝叶斯

在实际应用中，观测是逐渐得到的，每次观测都会改变后验概率。最好的情况是，每一个后验概率，都能在之前的后验概率上，用新的观测信息进行更新。即：

\[P(H\|A_1,A_2) = P(H\|A_1)\frac{P(A_2\|H)}{P(A_2\|A_1)}\]

拓展到\(k\)次观测：

\[P(H\|A_1,A_2,\cdots,A_k) = P(H\|A_1,A_2,\cdots,A_{k-1})\frac{P(A_k\|H)}{P(A_k\|A_1,A_2,\cdots,A_{k-1})}\]

自左向右三项分别表示：

\(k\)时刻的后验概率
\(k-1\)时刻的后验概率
\(k\)时刻的标准化似然概率

一个典型的例子是狼来了的故事：

\(H\) = 小孩可信 \(\bar{H}\) = 小孩不可信 \(A_i\) = 第\(i\)次喊狼来了但没有狼

先验（即第0次后验）\(P(H)=0.9\)，似然\(P(A_i\|H)=0.1\)，\(P(A_i\|\bar{H})=0.7\)

第1次后验：

\[P(H\|A_1)=P(H)\frac{P(A_1\|H)}{P(H)P(A_1\|H)+P(\bar{H})P(A_1\|\bar{H})}=0.5625\]

第2次后验：

\[P(H\|A_1,A_2)=P(H\|A_1)\frac{P(A_2\|H)}{P(A_2\|A_1)}=P(H\|A_1)\frac{P(A_2\|H)}{P(H\|A_1)P(A_2\|H)+P(\bar{H}\|A_1)P(A_2\|\bar{H})}=0.1552\]

…

在已经发生了多次观测后，小孩的可信度（后验）越来越低。

分层贝叶斯

通过贝叶斯解决问题的基本思路：

分组：将所有观测分为2组（放入先验和似然）
省略：只考虑先验概率，忽略似然概率
统计：用统计数据计算先验概率
调整：根据观测数据调整先验概率

\[P(H\|A_1,A_2,\cdots,A_n) = P(H\|\mathbf{A})\frac{P(\mathbf{B}\|H)}{P(\mathbf{B}\|\mathbf{A})}\]

分组

由于似然概率中的观测很难得到，我们需要尽量使得先验概率近似于后验概率。

由前面可知：

\[P(H\|A_1,A_2)=P(H\|A_1)\frac{P(A_2\|H)}{P(A_2\|A_1)}=P(H\|A_1)\frac{P(A_2\|H)}{P(H\|A_1)P(A_2\|H)+P(\bar{H}\|A_1)P(A_2\|\bar{H})}\]

可以变化为：

\[P(H\|A_1,A_2) = P(H\|A_1)\frac{1}{1-(1-P(H\|A_1))(1-\frac{P(A_2\|\bar{H})}{P(A_2\|H)})}\]

可以总结出3种情况：

\(P(H\|A_1) \approx 1 \& \frac{P(A_2\|\bar{H})}{P(A_2\|H)}\neq \infty\)，即\(P(H\|A_1) \approx P(H\|A_1,A_2) \approx 1\)
- \(A_1\)是支持\(H\)的排他性证据
- \(A_2\)不是反对\(H\)的排他性证据
\(P(H\|A_1) \approx 0 \& \frac{P(A_2\|\bar{H})}{P(A_2\|H)}\neq 0\)，即\(P(H\|A_1) \approx P(H\|A_1,A_2) \approx 0\)
- \(A_1\)是反对\(H\)的排他性证据
- \(A_2\)不是支持\(H\)的排他性证据
\(\frac{P(A_2\|\bar{H})}{P(A_2\|H)} \approx 1\)，即\(P(H\|A_1) \approx P(H\|A_1,A_2)\)
- \(A_2\)不能为我们提供更多的信息

应该将容易被统计+信息量大的观测放入先验概率。

分层

对先验概率\(P(H\|A_1,A_2,A_3\dots)\)而言，观测（条件）多->样本少->统计数据困难/误差大

直观的思维是减少放在先验的观测，但这样会导致信息量减少。我们可以不降低条件的数量，而是增大每个条件的颗粒度来扩大样本数量。围绕观测的对象，由粗到精描述，尽量减少信息的损失。

这里粗细关系可以这么定义：

\(A' \in A\)，可以认为\(A'\)的粒度更细，例如北京人是比中国人更细的观测
\(A' = A_1 \& A_2\)，可以认为\(A'\)的粒度比\(A_1\)更细，例如北京人且在985大学上学是比北京人更细的观测

对公式

\[P(H\|A_1,A_2,\cdots,A_n) = P(H\|\mathbf{A})\frac{P(\mathbf{B}\|H)}{P(\mathbf{B}\|\mathbf{A})}\]

中用来充当先验的观测\(\mathbf{A}\)而言，从粗到细调整其粒度，直到可以用统计数据计算出先验概率。

观测

总结上面通过贝叶斯定理的信息推断方法，除了似然概率和先验概率，还有一个非常重要的因素：观测（现象）。

观测有2个重要的注意事项：

避免漏掉重要观测
避免有偏采样

信息量的重要性

对于实际问题而言，信息量是非常重要的。一个很典型的例子是辛普森杀妻案。在这个案例中，辛普森的律师给出了这样一个概率：

\[P(凶手是辛普森\|辛普森曾经家暴,其他证据) = P(凶手是辛普森\|辛普森曾经家暴)\frac{P(其他证据\|凶手是辛普森)}{P(其他证据\|辛普森曾经家暴)}\]

而实际统计中，为了得到\(P(凶手是辛普森\|辛普森曾经家暴)\)这个先验概率，会对“谋杀妻子”/“曾经家暴”这一比例进行统计，而这个比例很显然接近于0。

事实上这个说法很显然是不成立的，因为这个说法忽略了一个重要的信息：辛普森的妻子死于谋杀。

\[P(凶手是辛普森\|辛普森曾经家暴,辛普森的妻子死于谋杀,其他证据) =P(凶手是辛普森\|辛普森的妻子死于谋杀)\frac{P(辛普森曾经家暴,其他证据\|凶手是辛普森)}{P(辛普森曾经家暴,其他证据\|辛普森的妻子死于谋杀)}\]

\(P(凶手是辛普森\|辛普森的妻子死于谋杀)\)这个先验概率很明显不是0，而且非常可观。

这就是信息量的问题，事实上仅凭“辛普森的妻子死于谋杀”这一点，就能对辛普森的嫌疑产生很大的影响，“辛普森的妻子死于谋杀”这个观测信息量非常大。

虽然“辛普森的妻子死于谋杀”和“辛普森曾经家暴”这两个证据都没有排他性，但是不能忽略前者这种非常重要的观测。

有偏采样

有偏采样是指在采样过程中，样本的选择不是随机的，而是有一定的偏向性。

比如第二次世界大战期间，英国的飞机加固的例子：

海军分析中心的研究人员：机翼的弹孔最多，而座舱和⻜机尾部的发动机位置则是被击中最少的部分。因此决定在机翼加装⼀个额外的防护罩。
美国统计学家亚伯拉罕·瓦尔德(Abraham Wald)：装甲位置不该是弹孔最密集的机翼，而是未中弹的座舱和尾部发动机的位置。

这是一个很典型的有偏采样，因为做统计的都是被击中但安全返航了的飞机，座舱和发动机部分很少发现中弹的原因并不是因为这些部位不会中弹，而是因为它⼀旦中弹了飞机就很难回来。也就是说，恰恰是那些没有弹孔的部位才是需要重点保护的。

幸存者偏差也是这个道理。只考虑了幸存者但没考虑更照耀但没幸存的人，导致了错误的结论。