とある統計学者の技術 Tips

統計学の話はしないかもしれません

情報量とその周辺の概念整理

概念の整理のため.

情報量,自己エントロピー

事象 Eが起こる確率 P(E)に対して, \begin{align} \displaystyle I(E) = -log P(E) \end{align}

平均情報量(シャノンエントロピー

ある確率変数 Xの従う確率分布 p(x)を考えたとき, \begin{align} \displaystyle H(X) = \int_{-\infty}^{\infty} -p(x) \ log \ p(x) \ dx \end{align}
離散確率分布の場合は, \Sigmaに置き換えるだけ.

結合エントロピー相互情報量

ある確率変数 X, Yの従う確率分布 p(x, y)を考えたとき, \begin{align} \displaystyle H(p(x, y)) = \int \int -p(x, y) \ log \ p(x, y) \ dxdy \end{align}
結合エントロピーと呼ぶ.このとき,X, Yが互いに独立であれば以下を満たす. \begin{align} \displaystyle H(X, Y) &= \int \int -p(x, y) \ log \ p(x, y) \ dxdy \\ &= \int \int -p(x)p(y) \ log \ p(x)p(y) \ dxdy \\ &= \int -p(x) \ log \ p(x) \ dx + \int -p(y) \ log \ p(y) \ dy \\ &= H(X) + H(Y) \end{align}

独立でない場合には,相互情報量 I(X, Y)を用いて,次のように表される. \begin{align} \displaystyle H(X, Y) &= \int \int -p(x, y) \ log \ p(x, y) \ dxdy \\ &= \int \int -p(x, y) \ log \ \frac{p(x, y)}{p(x)p(y)} p(x)p(y) \ dxdy \\ &= \int \int -p(x, y) \left\{ log \ \frac{p(x, y)}{p(x)p(y)} + log \ p(x)p(y) \right\} \ dxdy \\ &= -\underline{\int \int p(x, y) log \ \frac{p(x, y)}{p(x)p(y)} \ dxdy} + \int -p(x)log \ p(x) \ dx + \int -p(y)log \ p(y) \ dy \\ &= -\underline{I(X, Y)} + H(X) + H(Y) \end{align}

クロスエントロピー(交差エントロピー

同じ確率空間における分布 f(x), g(x)について,クロスエントロピーは次のように定義される. \begin{align} \displaystyle H(f(x), g(x)) &= E_{f} \left[ -log \ g(x) \right] \\ &= \int -f(x) \ log \ g(x) \ dx \end{align}

また,後述のKL divergence  D_{KL} と平均情報量を用いて,以下のように分解できる. \begin{align} \displaystyle H(f(x), g(x)) &= E_{f} \left[ -log \ g(x) \right] \\ &= \int -f(x) \ log \ \frac{g(x)}{f(x)} f(x) \ dx \\ &= \int -f(x) \ \left\{log~\frac{g(x)}{f(x)} + log~f(x) \right\} \ dx \\ &= \int -f(x)~log~f(x)~dx + \int f(x)~log~\frac{f(x)}{g(x)}~dx \\ &= H(f(x)) + D_{KL} (f(x), g(x)) \end{align}

Kullback–Leibler divergence(相対エントロピー

同じ確率空間における分布 f(x), g(x)について,Kullback–Leibler divergence  D_{KL}を以下のように定める.
\begin{align} \displaystyle D_{KL} (f(x), g(x)) &= \int f(x) \ log \ \frac{f(x)}{g(x)} \ dx \\ &= E_{f} \left[ log \ \frac{f(x)}{g(x)} \right] \end{align}

KL divergenceは常に非負の値をとり,0となるのは f(x) = g(x)の場合に限られる.直観的には,相対的な分布の差異の大きさを示す.
 q(x)をp(x|\theta)で推定するという文脈においては,KL divergenceの経験値(期待値を標本平均に置き換えたもの)の最小化問題の結論は最尤推定値と同値となる.

\begin{align} \displaystyle
\newcommand{\argmin}{\mathop{\rm argmin}\limits} \hat \theta = \argmin_{\theta} \ \frac{1}{n} \sum_{i = 1}^{n} log \ \frac{q(x)}{p(x|\theta)} \end{align}

一方,最尤推定量は以下の通り.

\begin{align} \displaystyle
\newcommand{\argmax}{\mathop{\rm argmax}\limits} \hat \theta = \argmax_{\theta} \ \frac{1}{n} \sum_{i = 1}^{n} log \ p(x|\theta) \end{align}