情報量とその周辺の概念整理
概念の整理のため.
情報量,自己エントロピー
事象が起こる確率に対して, \begin{align} \displaystyle I(E) = -log P(E) \end{align}
平均情報量(シャノンエントロピー)
ある確率変数の従う確率分布を考えたとき,
\begin{align}
\displaystyle
H(X) = \int_{-\infty}^{\infty} -p(x) \ log \ p(x) \ dx
\end{align}
離散確率分布の場合は,に置き換えるだけ.
結合エントロピーと相互情報量
ある確率変数の従う確率分布を考えたとき,
\begin{align}
\displaystyle
H(p(x, y)) = \int \int -p(x, y) \ log \ p(x, y) \ dxdy
\end{align}
を結合エントロピーと呼ぶ.このとき,X, Yが互いに独立であれば以下を満たす.
\begin{align}
\displaystyle
H(X, Y) &= \int \int -p(x, y) \ log \ p(x, y) \ dxdy \\
&= \int \int -p(x)p(y) \ log \ p(x)p(y) \ dxdy \\
&= \int -p(x) \ log \ p(x) \ dx + \int -p(y) \ log \ p(y) \ dy \\
&= H(X) + H(Y)
\end{align}
独立でない場合には,相互情報量を用いて,次のように表される. \begin{align} \displaystyle H(X, Y) &= \int \int -p(x, y) \ log \ p(x, y) \ dxdy \\ &= \int \int -p(x, y) \ log \ \frac{p(x, y)}{p(x)p(y)} p(x)p(y) \ dxdy \\ &= \int \int -p(x, y) \left\{ log \ \frac{p(x, y)}{p(x)p(y)} + log \ p(x)p(y) \right\} \ dxdy \\ &= -\underline{\int \int p(x, y) log \ \frac{p(x, y)}{p(x)p(y)} \ dxdy} + \int -p(x)log \ p(x) \ dx + \int -p(y)log \ p(y) \ dy \\ &= -\underline{I(X, Y)} + H(X) + H(Y) \end{align}
クロスエントロピー(交差エントロピー)
同じ確率空間における分布について,クロスエントロピーは次のように定義される. \begin{align} \displaystyle H(f(x), g(x)) &= E_{f} \left[ -log \ g(x) \right] \\ &= \int -f(x) \ log \ g(x) \ dx \end{align}
また,後述のKL divergence と平均情報量を用いて,以下のように分解できる. \begin{align} \displaystyle H(f(x), g(x)) &= E_{f} \left[ -log \ g(x) \right] \\ &= \int -f(x) \ log \ \frac{g(x)}{f(x)} f(x) \ dx \\ &= \int -f(x) \ \left\{log~\frac{g(x)}{f(x)} + log~f(x) \right\} \ dx \\ &= \int -f(x)~log~f(x)~dx + \int f(x)~log~\frac{f(x)}{g(x)}~dx \\ &= H(f(x)) + D_{KL} (f(x), g(x)) \end{align}
Kullback–Leibler divergence(相対エントロピー)
同じ確率空間における分布について,Kullback–Leibler divergence を以下のように定める.
\begin{align}
\displaystyle
D_{KL} (f(x), g(x)) &= \int f(x) \ log \ \frac{f(x)}{g(x)} \ dx \\
&= E_{f} \left[ log \ \frac{f(x)}{g(x)} \right]
\end{align}
KL divergenceは常に非負の値をとり,0となるのはの場合に限られる.直観的には,相対的な分布の差異の大きさを示す.
で推定するという文脈においては,KL divergenceの経験値(期待値を標本平均に置き換えたもの)の最小化問題の結論は最尤推定値と同値となる.
\begin{align}
\displaystyle
\newcommand{\argmin}{\mathop{\rm argmin}\limits}
\hat \theta = \argmin_{\theta} \ \frac{1}{n} \sum_{i = 1}^{n} log \ \frac{q(x)}{p(x|\theta)}
\end{align}
一方,最尤推定量は以下の通り.
\begin{align}
\displaystyle
\newcommand{\argmax}{\mathop{\rm argmax}\limits}
\hat \theta = \argmax_{\theta} \ \frac{1}{n} \sum_{i = 1}^{n} log \ p(x|\theta)
\end{align}