WATAPEDIA
--
数学
-- 最尤法
Last updated Jun. 6, 2011
Home
Return
PDFを表示
記事が表示されない場合は,ブラウザが非対応です.
上のPDFを表示をクリックしてください.
comp -MYPEDIA Math- 最尤法 Maximum likelihood estimation 1 概要 最尤法は,実験による観測値がパラメータ未知 (あるいは形状自体が未知) の分布 に従うとしたとき,そのパラメータを (あるいは分布の形状) を推定する推定手法で ある.最尤法では,実際に得られた観測値が生起する確率が最も高くなるようなパ ラメータを最尤推定量 (Maximum Likelihood Estimator; MLE) とする.これは一般 的に推定量を考える統計的推定手法とは考え方が異なる. 2 尤度関数 最尤法では,観測値の分布を表す確率関数 (または密度関数) をその分布のパラ メータの関数であると捉え,以下に示す尤度関数 (Likelihood function) を定義する. 尤度関数 観測値 X1 , X2 , . . . , Xn がパラメータ θ を持つ確率関数 (確率密度関数) f(x1 , x2 , · · · , xn | θ) に従うとする (ただし,θ の具体的値は未知).今, 実際に得られた Xi (i = 1, 2, . . . , n) が Xi = xi だったとすると,この観 測値が得られる確率 (確率密度) は以下の通り与えられ,これを尤度関 数と呼ぶ. L(θ | x1 , x2 , . . . , xn ) = f(x1 , x2 , . . . , xn | θ) 最尤法ではこの尤度関数を最大とするパラメータ θ を最尤推定量とする. 観測値が互いに独立でない場合は上記のように結合分布を考える必要があるが,観 測値が独立同分布 (i.i.d.) に従う場合,結合分布が積で表せるため簡単に記述できる. 観測値が i.i.d. の場合の尤度関数 観測値 X1 , X2 , . . . , Xn が独立同分布 (i.i.d.) の場合,確率関数 (確率密 度関数) の性質から,尤度関数 L(θ | x1 , x2 , . . . , xn ) は以下の通り積で表 せる. L(θ | x1 , x2 , . . . , xn ) = f(x1 | θ)f(x2 | θ) . . . f(xn | θ) 1 Math 一覧へ . . comp -MYPEDIA Math- 上記の例は,θ がスカラーの場合であるが,パラメータが複数の場合は θ をベク トルとすれば良い.また,分布の形状自体がわからない場合,分布を整数など適当 に離散化し,各値が生起する確率をパラメータとすれば良い. 3 対数尤度 尤度関数の対数を取ったものを対数尤度と呼ぶ.対数を取っても最大値の位置は 変わらず,また,観測値が独立の場合,積を和に変換できるため,実際に尤度関数 を最大化するパラメータを特定するときに都合がよい.対数尤度はシャノン情報量 や後述のカルバック・ライブラー情報量,フィ ッシャー情報量1などと関係がある. 対数尤度 尤度関数の対数を取ったものを対数尤度と呼ぶ.実際に尤度関数を最大 化するパラメータを特定する際には,この対数尤度を θ で微分して求め ることができる. log L(θ | x) 4 フィ ッシャー情報量との関係 最尤推定量は観測値のサンプル数 n が十分に大きければ,パラメータ数を m と すると m 次元正規分布に従う.その平均は真の値に一致し,その分散共分散行列は フィ ッシャー情報行列1の逆行列に一致する. フィ ッシャー情報量と最尤推定量 最尤推定量 θ∗ n はサンプル数 n が十分に大きいとき,漸近的に正規分布 に従うことが知られている. θ∗ n → N ( θ, I−1(θ) n ) for n → ∞. ここで,I(θ) はフィ ッシャー情報行列である. 1フィ ッシャー情報量 . . 2 Math 一覧へ . . comp -MYPEDIA Math- 5 カルバック・ライブラー情報量との関係 実際に最尤法で推定を行う際は,未知の確率分布を持つ対象に対して何らかのモ デルを立て,そのモデルの中で最も対数尤度の高いパラメータを見つける.このと き,真の確率密度関数 ftrue (x) とそのモデル f(x | θ) は必ずしも一致しない.真の確 率分布とモデルの近さを表す指標として,カルバック・ライブラー情報量がある. カルバック・ライブラー情報量の定義 真の確率密度関数を ftrue (x),そのモデルを f(x | θ) とすると,カルバッ ク・ライブラー情報量 I(ftrue , f) は以下の通り定義される. I(ftrue , f) = ∫ ∞ −∞ ftrue (x) log ftrue (x) f(x | θ) dx ftrue と f が等しいとき I(ftrue , f) は 0 となり,離れるほど大きくなるよ うな指標になっている. さらに,カルバック・ライブラー情報量は以下のように変形できる. I(ftrue , f) = ∫ ∞ −∞ ftrue (x) log ftrue (x) f(x | θ) dx = ∫ ∞ −∞ ftrue (x) log ftrue (x)dx − ∫ ∞ −∞ ftrue (x) log f(x | θ)dx ここで,観測値 X は真の分布に従う確率変数だから, I(ftrue , f) = E [log ftrue (x)] − E [log f(X | θ)] 右辺第 1 項は,真の分布によって決まる定数であり,対数尤度の平均になっている ことがわかる.つまり,対数尤度を最大化する最尤法は,仮定したモデルの制約の 中で,カルバック・ライブラー情報量を最小化するパラメータを特定する手法であ ることがわかる. 3 Math 一覧へ . .