情報量とその周辺の概念整理

概念の整理のため．

情報量，自己エントロピー

事象 $E$ が起こる確率 $P(E)$ に対して， \begin{align} \displaystyle I(E) = -log P(E) \end{align}

平均情報量（シャノンエントロピー）

ある確率変数 $X$ の従う確率分布 $p(x)$ を考えたとき， \begin{align} \displaystyle H(X) = \int_{-\infty}^{\infty} -p(x) \ log \ p(x) \ dx \end{align}
離散確率分布の場合は， $\Sigma$ に置き換えるだけ．

ある確率変数 $X, Y$ の従う確率分布 $p(x, y)$ を考えたとき， \begin{align} \displaystyle H(p(x, y)) = \int \int -p(x, y) \ log \ p(x, y) \ dxdy \end{align}
を結合エントロピーと呼ぶ．このとき，X, Yが互いに独立であれば以下を満たす． \begin{align} \displaystyle H(X, Y) &= \int \int -p(x, y) \ log \ p(x, y) \ dxdy \\ &= \int \int -p(x)p(y) \ log \ p(x)p(y) \ dxdy \\ &= \int -p(x) \ log \ p(x) \ dx + \int -p(y) \ log \ p(y) \ dy \\ &= H(X) + H(Y) \end{align}

独立でない場合には，相互情報量 $I(X, Y)$ を用いて，次のように表される． \begin{align} \displaystyle H(X, Y) &= \int \int -p(x, y) \ log \ p(x, y) \ dxdy \\ &= \int \int -p(x, y) \ log \ \frac{p(x, y)}{p(x)p(y)} p(x)p(y) \ dxdy \\ &= \int \int -p(x, y) \left\{ log \ \frac{p(x, y)}{p(x)p(y)} + log \ p(x)p(y) \right\} \ dxdy \\ &= -\underline{\int \int p(x, y) log \ \frac{p(x, y)}{p(x)p(y)} \ dxdy} + \int -p(x)log \ p(x) \ dx + \int -p(y)log \ p(y) \ dy \\ &= -\underline{I(X, Y)} + H(X) + H(Y) \end{align}

クロスエントロピー（交差エントロピー）

同じ確率空間における分布 $f(x), g(x)$ について，クロスエントロピーは次のように定義される． \begin{align} \displaystyle H(f(x), g(x)) &= E_{f} \left[ -log \ g(x) \right] \\ &= \int -f(x) \ log \ g(x) \ dx \end{align}

また，後述のKL divergence $D_{KL}$ と平均情報量を用いて，以下のように分解できる． \begin{align} \displaystyle H(f(x), g(x)) &= E_{f} \left[ -log \ g(x) \right] \\ &= \int -f(x) \ log \ \frac{g(x)}{f(x)} f(x) \ dx \\ &= \int -f(x) \ \left\{log~\frac{g(x)}{f(x)} + log~f(x) \right\} \ dx \\ &= \int -f(x)~log~f(x)~dx + \int f(x)~log~\frac{f(x)}{g(x)}~dx \\ &= H(f(x)) + D_{KL} (f(x), g(x)) \end{align}

Kullback–Leibler divergence（相対エントロピー）

同じ確率空間における分布 $f(x), g(x)$ について，Kullback–Leibler divergence $D_{KL}$ を以下のように定める．
\begin{align} \displaystyle D_{KL} (f(x), g(x)) &= \int f(x) \ log \ \frac{f(x)}{g(x)} \ dx \\ &= E_{f} \left[ log \ \frac{f(x)}{g(x)} \right] \end{align}

KL divergenceは常に非負の値をとり，0となるのは $f(x) = g(x)$ の場合に限られる．直観的には，相対的な分布の差異の大きさを示す．
$q(x)をp(x|\theta)$ で推定するという文脈においては，KL divergenceの経験値（期待値を標本平均に置き換えたもの）の最小化問題の結論は最尤推定値と同値となる．

\begin{align} \displaystyle
\newcommand{\argmin}{\mathop{\rm argmin}\limits} \hat \theta = \argmin_{\theta} \ \frac{1}{n} \sum_{i = 1}^{n} log \ \frac{q(x)}{p(x|\theta)} \end{align}

一方，最尤推定量は以下の通り．

\begin{align} \displaystyle
\newcommand{\argmax}{\mathop{\rm argmax}\limits} \hat \theta = \argmax_{\theta} \ \frac{1}{n} \sum_{i = 1}^{n} log \ p(x|\theta) \end{align}

とある統計学者の技術 Tips

統計学の話はしないかもしれません

情報量，自己エントロピー

平均情報量（シャノンエントロピー）

結合エントロピーと相互情報量

クロスエントロピー（交差エントロピー）

Kullback–Leibler divergence（相対エントロピー）