由此我们可以看出,分布式鲁棒双重稳健评估可以经受住真实数据计算任务的考验,而且也得到了实验的验证。此双重验证充分说明了该类双重稳健评估方法的科学性和可靠性。
在之后的安慰剂(Placebo)检验任务中,我们发现在对输入干预随机化之后,Binary双重稳健估计比 PSM 和 DRE 更加密集地分布在 0 附近(DML 会存在大量 ATE>1的点)。这就说明针对留存或流失这类的二元问题,传统的双重估计策略的效果就显得差强人意。
而在缩减了样本量(Subset-Data)的仿真验证当中,PSM 和原始双重稳健估计(DRE)与 True-Ate 的真实值是呈现出一定偏差的,即趋势得分和结果估计都变得更加不准确,尤其是DML会严重偏离真实值。而我们的 Binary 双重稳健估计则表现出与真实值的良好契合度,也就是说依然表现出了良好的 ATE 估计,这也是其良好稳健性的充分证明。
-- 04/分布式面板双重差分
在多干预场景当中,尤其在游戏当中面对连续性投放如多次、多干预、覆盖众多用户、存在多次参与的用户、有的用户在其间有中断和退出行为时,即当用户参与活动的次数、程度不同时,按照以往的传统方法是难以对此类不同活动进行区分的。那么为了准确估计各类活动的真实影响,我们提出了运用 DID 的策略来进行干预。
考虑到在活动过程中,主动参与类型的用户因为其目的和愿望的主动性,相较于非主动参与类用户,可能会存在一定的选择和行为偏差以及显著性差异。此时,运用 DID 策略则可以在满足平行趋势假设的前提下,对实验组和对照组两组的差异的交叉项进行计算。随着时间的变化,我们发现两组交叉项的系数的偏离度在可接受范围内(始终处于 0 值附近),尤其始终处于置信区间内。这就说明实验组和对照组的用户在活动开始前的指标是符合平行趋势假设的,也说明是满足 DID 使用条件的。
接下来我们就可以通过构造面板二重差分(Panel DID)模型对各个活动的效果进行归因。