Bounds on Causal Effects and Application to High Dimensional Data

arxiv.org

やったこと

  • 因果効果の区間推定
    • バックドアやフロントドア基準を満たす変数が部分的に得られない状況で、最適化問題によって因果効果の上限と下限を推定する手法。
    • 実験では従来手法よりも狭い推定区間幅を得ることができた。
  • 少ないサンプルでの因果効果の推定
    • 等価なグラフィカルモデルを構築することで少ないサンプル数で因果効果を推定する手法。
    • 実験では256通りの値を取る変数を16x16というように分割して片方を未観測として区間推定を行ったところ、区間の中央値とデータセット全体から得た効果が近しい値になった。

これまでの手法

  • 因果モデルがあって、それぞれのノードに対応する変数がもれなく観測されていれば因果効果を点推定することができる。
  • バックドアやフロントドアの変数が部分的に未観測の場合、観測されている変数のみを用いて因果効果の上限下限をナイーブに算出することができる。

新しい手法

  • 未観測の変数Uの周辺分布P(U)を、例えば人口統計などから得るなどして、未観測変数を含んだ同時分布の上限下限を制約とした最適化問題を構成し、未観測変数を含んだ調整化公式で因果効果の最大値・最小値を推定する。
  • 高次元な変数Zを観測W・未観測変数Uというように分割して、等価なグラフィカルモデルを構築して因果効果を推定するに足るサンプルサイズを小さくする。
    • 例えば、256通りの値を取るZを16x16通りというように分割する。

実証方法

因果効果の区間推定

  • あるグラフィカルモデルに基づいたデータセットを生成する。
  • モデルの内、ある変数を除いて新旧それぞれの手法で因果効果の区間推定を行う。
  • それぞれの区間の中央値や区間幅などで新手法の有効性を吟味。
    • 新手法で区間幅を狭くすることができた。

感想など

  • 区間の中央値にどれだけの意味があるのか。最適化問題よりも、モンテカルロ的なサンプリングのほうが分布がわかってよいかも。
  • データ取得ができないというのはそれなりによくあるケースなので、実際のデータで試してみたい。