とある統計学者の技術 Tips

統計学の話はしないかもしれません

応用論文読み 2020.05.04

単なる使用例ではなく,Applied Statistics.

Title

Suzuki, Taiji, et al. "Mutual information estimation reveals global associations between stimuli and biological processes." BMC bioinformatics 10.S1 (2009): S52.

概要

マイクロアレイデータを用い,刺激による発現量の違いを解析することで発現条件と機能を関連付けることを目的とした研究. 相互情報量を使うことで非線形な関連性をとらえられるが,例えばカーネル密度推定などは推定が難しいことが知られている. 本研究では相互情報量の代わりにSquared Mutual Information(下記)を導入し,これを最小化するような特徴選択法を考えた.

\displaystyle
I_s(X,Y) := \int\int\left(\frac{p_{xy}(x,y)}{p_x(x)p_y(y)}-1\right)^2p_x(s)p_y(y)dxdy

この損失の推定に密度推定は必要なく,代わりに次の関数を推定する.

\displaystyle
w(x,y) := \frac{p_{xy}(x,y)}{p_x(x)p_y(y)} \\
w(x,y) = \boldsymbol{\alpha}^T\boldsymbol{\varphi}(x,y)

\boldsymbol{\varphi}(x,y)b次元の基底関数で,ガウシアンカーネルが推奨されている. 目的関数は次のように変形でき,パラメータ\boldsymbol{\alpha}を陽に得られる. なお正則化パラメータ \lambdaはCVにより客観的に決められる.

\displaystyle
\begin{align}
J_0(\boldsymbol{\alpha})
    &:= \frac{1}{2}\int\int\left( \hat{w}_{\boldsymbol{\alpha}}(x,y) - w(x,y) \right)^2p_x(s)p_y(y)dxdy \notag\\
    &= \frac{1}{2}\int\int\hat{w}_{\boldsymbol{\alpha}}(x,y)^2p_x(s)p_y(y)dxdy - \int\int\hat{w}_{\boldsymbol{\alpha}}(x,y)p_{xy}(x,y)dxdy + C \notag\\
J(\boldsymbol{\alpha})
    &:= J_0(\boldsymbol{\alpha}) - C \notag\\
    &= \frac{1}{2}\boldsymbol{\alpha}^T\mathbf{G}\boldsymbol{\alpha} - \boldsymbol{h}^T\boldsymbol{\alpha} \notag\\
\mathbf{H} &:= \int\int\hat{w}_{\boldsymbol{\alpha}}(x,y)^2p_x(s)p_y(y)dxdy \notag\\
\boldsymbol{h} &:= \int\int\hat{w}_{\boldsymbol{\alpha}}(x,y)p_{xy}(x,y)dxdy \notag\\
\hat{\boldsymbol{\alpha}} &= (\mathbf{H} + \lambda\mathbf{I}_b)^{-1}\boldsymbol{h} \notag
\end{align}

\mathbf{H},\boldsymbol{h}はそれぞれの期待値に対応する平均をとることで推定できる. 変数選択は次のような手順による.

  1. データセットをtrain/testに分割(遺伝子をN,条件群をpとみなす)
  2. trainにおける各遺伝子群と条件群の関係(LSMI)を計算する
  3. 条件群(特徴量)から各遺伝子の属する遺伝子群(12 GP term)を予測する分類器を学習する.

このとき,スコアが高い順にm個の特徴量を入力とする(mは解析者が決める).

類似手法との比較

  • KDEはLikelihood Cross Validationによりパラメータを決められ,分布の仮定も不要だが,密度推定が必要である.
  • EDGE(エッジワース展開)は常に可能とは限らず,分布は正規分布に近い必要がある.
  • KNNは客観的なモデル選択が不可能である.
  • LSMIは上記すべての問題点をクリアしている.

コメント

  • カーネル法的に非線形性を線形問題にきれいに落とし込んでいて勉強になる.
  • HSIC-Lassoとも近いので,双方を整理して比較してみたい.
  • すこし古いので,現在この方法がどのように展開されているか追いかける.