因果推断知识入门(二) #
一般化的校正公式 #
给定一个图$G$
,设变量$X$
的父节点集合为$PA(X)$
,则一般化的校正公式,即$X$
对$Y$
的因果效应为:
$$
P(Y=y|do(X=x))=\sum_iP(Y=y|X=x,PA=z)P(PA=z)=\sum_i{P(X=x,Y=y,PA=z)\over{P(X=x|PA=z)}}
$$
其中,$z$
的取值范围为$PA$
中变量可能取值的所有组合,$P(X=x|PA=z)$
被称为倾向分数。、
多重干预与截断乘积规则 #
将校正公式推广到多重干预,即将一组变量$X$
的值固定为常数的干预。简单写下干预前分布的乘积分解,并且删去与干预集$X$
中的变量相对应的所有因素,有
$$
P(x_1,x_2,···,x_n|do(x))=\prod_iP(x_i|pa_i)
$$
其中,$i$
取所有不在$X$
中的$X_i$
,这被称为截断乘积公式或g-公式。由此得到干预前和干预后分布之间的简单关系为
$$
P(z,y|do(x))=\frac {P(x,y.z)}{P(x|z)}
$$
它告诉我们,为了预测在分布$P(x,y,z)$
下非试验数据对$X$
干预的效果,我们仅需要知道所有的条件概率$P(x|z)$
即可。
后门准则 #
含义 #
给定有向无环图中的一对有序变量$(X,Y)$
,如果变量集合$Z$
满足:$Z$
中没有$X$
的后代节点,且$Z$
阻断了$X$
与$Y$
之间的每条含有指向$X$
的路径,则称$Z$
满足关于$(X,Y)$
的后门准则。
而如果上述情况成立,那么$X$
对于$Y$
的因果效应可以由以下公式计算:
$$
P(Y=y|do(X=x))=\sum_iP(Y=y|X=x,Z=z)P(Z=z)
$$
一般来说,我们希望以这样的节点集合$Z$
作条件
- 阻断
$X$
和$Y$
之间的所有伪路径(指含有指向$X$
的路径) - 保持所有从
$X$
到$Y$
的有向路径不变 - 不会产生新的伪路径(当选择对撞节点为条件后,其父节点之间可能会产生新的伪路径)
使用后门路径为条件可以满足第一个要求,不以$X$
的任何后代节点为条件符合第二个要求,避免以任何对撞节点为条件可以保证第三个要求。排除$X$
后代节点的要求也可以避免以$X$
和$Y$
之间中间节点的后代节点为条件,以这些后代节点为条件会扰乱因果关系在$X$
和$Y$
之间的传递。
例子 #
由图中可以发现,节点$W$
不是$X$
的后代,且阻断后门路径$X\leftarrow Z\rightarrow W\rightarrow Y$
。因此$W$
满足后门准则,校正$W$
可以得到$X$
对$Y$
的因果效应,即
$$ P(Y=y|do(X=x))=\sum_iP(Y=y|X=x,W=w)P(W=w) $$
只要$W$
是可观测的,上式就可以通过观察数据观测得到。同理,在复杂的图模型中,找到一组满足后门准则的变量集合可以简化因果效应的计算。
在更一般的情况下,单独的$W$
通常不满足后门准则,而更大的集合$T\cup W$
可以满足后门准则,因此需要对$T$
的成员进行校正,这就产生了
$$
P(Y=y|do(x),W=w)=\sum_iP(Y=y|X=x,W=w,T=t)P(T=t|X=x,W=w)
$$
这也被称为$w-$
特定因果效应,将于之后讨论。
前门准则 #
例子 #
对于如上案例,变量$U$
无法被观测,不符合后门准则,吸烟对肺癌的因果效应在这个模型中不可识别。
如果有一个额外可观测变量$Z$
,焦油含量,这个模型仍然不满足后门准则,因为仍然没有变量能够阻断$X\leftarrow U \rightarrow Y$
这条伪路径,但是因果效应$P(Y=y|do(X=x))$
可以通过连续应用两次后门准则计算得到。
首先,$X$
对$Z$
的因果效应是可以识别的,即
$$
P(Z=z|do(X=x))=P(Z=z|X=x)\ (1)
$$
其次,$Z$
对$Y$
的因果效应也是能够识别的,因为从$Z$
到$Y$
的后门路径$Z\leftarrow X \leftarrow U \rightarrow Y$
,通过以$X$
为条件阻断,有
$$
P(Y=y|do(Z=z))=\sum_iP(Y=y|Z=z,X=x)P(X=x) \ (2)
$$
现在将这两部分连接起来以获得$X$
对$Y$
的整体因果效应。如果固定$Z$
,那么$Y$
的概率为$P(Y=y|do(Z=z))$
。但考虑将$X$
设定为$x$
,那么固定$Z$
值为$z$
的概率为$P(Z=z|do(X=x))$
。对$Z$
的所有取值求和可以得到
$$
P(Y=y|do(X=x))=\sum_iP(Y=y|do(Z=z))P(Z=z|do(X=x))
$$
则右边部分可以由之前的两式评估,为便于区分,将式(2)中出现的仅用于求和的索引的$x$
记作$x^{'}$
,得到的最终表达式为
$$
P(Y=y|do(X=x))=\sum_z\sum_{x^{'}}P(Y=y|Z=z,X=x^{'})P(X=x^{'})P(Z=z|X=x)
$$
即为**前门公式**。推广到有多条从$X$
到$Y$
的路径的图结构,给出前门准则的定义。
定义 #
前门:变量集合$Z$
被称为满足关于有序变量$(X,Y)$
的前门准则,如果:
$Z$
切断了所有$X$
到$Y$
的有向路径,$X$
到$Z$
没有后门路径,- 所有
$Z$
到$Y$
的后门路径都被$X$
阻断。
前门校正:如果$Z$
满足变量对$(X,Y)$
的前门准则,且$P(x,z)>0$
,那么$X$
对$Y$
的因果效应是可识别的,计算如下
$$
P(Y=y|do(x))=\sum_zP(z|x)\sum_{x^{'}}P(y|x^{'},z)P(x^{'})
$$
最后一次修改于 2022-10-18