因果推断知识入门(二)

徐瑞泽 / 2022-10-18


因果推断知识入门(二) #

一般化的校正公式 #

给定一个图$G$,设变量$X$的父节点集合为$PA(X)$,则一般化的校正公式,即$X$$Y$的因果效应为: $$ P(Y=y|do(X=x))=\sum_iP(Y=y|X=x,PA=z)P(PA=z)=\sum_i{P(X=x,Y=y,PA=z)\over{P(X=x|PA=z)}} $$ 其中,$z$的取值范围为$PA$中变量可能取值的所有组合,$P(X=x|PA=z)$被称为倾向分数。、

多重干预与截断乘积规则 #

将校正公式推广到多重干预,即将一组变量$X$的值固定为常数的干预。简单写下干预前分布的乘积分解,并且删去与干预集$X$中的变量相对应的所有因素,有

$$ P(x_1,x_2,···,x_n|do(x))=\prod_iP(x_i|pa_i) $$ 其中,$i$取所有不在$X$中的$X_i$,这被称为截断乘积公式或g-公式。由此得到干预前和干预后分布之间的简单关系为 $$ P(z,y|do(x))=\frac {P(x,y.z)}{P(x|z)} $$ 它告诉我们,为了预测在分布$P(x,y,z)$下非试验数据对$X$干预的效果,我们仅需要知道所有的条件概率$P(x|z)$即可。

后门准则 #

含义 #

给定有向无环图中的一对有序变量$(X,Y)$,如果变量集合$Z$满足:$Z$中没有$X$的后代节点,且$Z$阻断了$X$$Y$之间的每条含有指向$X$的路径,则称$Z$满足关于$(X,Y)$的后门准则。

而如果上述情况成立,那么$X$对于$Y$的因果效应可以由以下公式计算: $$ P(Y=y|do(X=x))=\sum_iP(Y=y|X=x,Z=z)P(Z=z) $$ 一般来说,我们希望以这样的节点集合$Z$作条件

  • 阻断$X$$Y$之间的所有伪路径(指含有指向$X$的路径)
  • 保持所有从$X$$Y$的有向路径不变
  • 不会产生新的伪路径(当选择对撞节点为条件后,其父节点之间可能会产生新的伪路径)

使用后门路径为条件可以满足第一个要求,不以$X$的任何后代节点为条件符合第二个要求,避免以任何对撞节点为条件可以保证第三个要求。排除$X$后代节点的要求也可以避免以$X$$Y$之间中间节点的后代节点为条件,以这些后代节点为条件会扰乱因果关系在$X$$Y$之间的传递。

例子 #

由图中可以发现,节点$W$不是$X$的后代,且阻断后门路径$X\leftarrow Z\rightarrow W\rightarrow Y$。因此$W$满足后门准则,校正$W$可以得到$X$$Y$的因果效应,即

$$ P(Y=y|do(X=x))=\sum_iP(Y=y|X=x,W=w)P(W=w) $$

只要$W$是可观测的,上式就可以通过观察数据观测得到。同理,在复杂的图模型中,找到一组满足后门准则的变量集合可以简化因果效应的计算。

在更一般的情况下,单独的$W$通常不满足后门准则,而更大的集合$T\cup W$可以满足后门准则,因此需要对$T$的成员进行校正,这就产生了 $$ P(Y=y|do(x),W=w)=\sum_iP(Y=y|X=x,W=w,T=t)P(T=t|X=x,W=w) $$ 这也被称为$w-$特定因果效应,将于之后讨论。

前门准则 #

例子 #

对于如上案例,变量$U$无法被观测,不符合后门准则,吸烟对肺癌的因果效应在这个模型中不可识别。

如果有一个额外可观测变量$Z$,焦油含量,这个模型仍然不满足后门准则,因为仍然没有变量能够阻断$X\leftarrow U \rightarrow Y$这条伪路径,但是因果效应$P(Y=y|do(X=x))$可以通过连续应用两次后门准则计算得到。

首先,$X$$Z$的因果效应是可以识别的,即 $$ P(Z=z|do(X=x))=P(Z=z|X=x)\ (1) $$ 其次,$Z$$Y$的因果效应也是能够识别的,因为从$Z$$Y$的后门路径$Z\leftarrow X \leftarrow U \rightarrow Y$,通过以$X$为条件阻断,有 $$ P(Y=y|do(Z=z))=\sum_iP(Y=y|Z=z,X=x)P(X=x) \ (2) $$ 现在将这两部分连接起来以获得$X$$Y$的整体因果效应。如果固定$Z$,那么$Y$的概率为$P(Y=y|do(Z=z))$。但考虑将$X$设定为$x$,那么固定$Z$值为$z$的概率为$P(Z=z|do(X=x))$。对$Z$的所有取值求和可以得到 $$ P(Y=y|do(X=x))=\sum_iP(Y=y|do(Z=z))P(Z=z|do(X=x)) $$ 则右边部分可以由之前的两式评估,为便于区分,将式(2)中出现的仅用于求和的索引的$x$记作$x^{'}$,得到的最终表达式为 $$ P(Y=y|do(X=x))=\sum_z\sum_{x^{'}}P(Y=y|Z=z,X=x^{'})P(X=x^{'})P(Z=z|X=x) $$ 即为**前门公式**。推广到有多条从$X$$Y$的路径的图结构,给出前门准则的定义。

定义 #

前门:变量集合$Z$被称为满足关于有序变量$(X,Y)$的前门准则,如果:

  • $Z$切断了所有$X$$Y$的有向路径,
  • $X$$Z$没有后门路径,
  • 所有$Z$$Y$的后门路径都被$X$阻断。

前门校正:如果$Z$满足变量对$(X,Y)$的前门准则,且$P(x,z)>0$,那么$X$$Y$的因果效应是可识别的,计算如下 $$ P(Y=y|do(x))=\sum_zP(z|x)\sum_{x^{'}}P(y|x^{'},z)P(x^{'}) $$

最后一次修改于 2022-10-18