確率・統計の基礎的な数式・統計量が分かるようになったところで、機械学習に進もうと思ってぶつかるのが多次元の壁です。一次元なら分かるんだけども、多次元になるとサッパリわからないというのは、線形代数の数式がわからないからに他ならないのですが、今回は具体的に計算を追っていくことで多次元への拡張を見たいと思います。
これを見ても全く怖じけなくなるところを目指しましょう。
基本的な確率・統計の知識
確率変数などの基本的なことは理解しておいてください。
平均
確率変数の平均とは、
の期待値のことです。
確率密度関数をとして
の平均
は
となります。離散の場合は
です。
分散
確率変数の分散とは、平均
からの
の二乗誤差の期待値です。
確率密度関数をとして
の分散は
は
となります。離散の場合は
です。
共分散
確率変数と確率変数
の共分散
とは、同時確率密度関数を
として以下の式で表されます。
離散の場合は、
となります。インテグラルやシグマがたくさん出てきましたが、びっくりしないでください。結局のところは、2つの確率変数のそれぞれの平均からの誤差を掛けあわせて、総和を取っているだけにすぎません。
性質としては、確率変数が大きな値を取ればとる程、
も大きな値を取るような関係にある場合には、共分散は正の値となります。 一方で確率変数が大きな値を取れば取るほど
が小さな値を取るような関係にあるときには、共分散は負となります。
相関係数
確率変数と確率変数
の相関係数
とは以下の式で表されます。
これは、共分散を正規化したものです。統計の実際の分析では、この相関係数を見ることの方が多いかもしれませんね。分母は必ず正なので、符号を決めるのは共分散のみになります。従って、共分散と同じような性質を持っており、その値の範囲が分母のおかげで-1から1に制限されています。相関係数が正である場合は、正の相関があると良い、負であれば、負の相関があると表現します。
正の値でかつ、その数値も大きい(1に近い場合は)分布が鋭くなり、小さい(0に近い場合は)散らばるようになります。これは具体例を見たほうが早いので、以下の図を参照にしてください。
独立性
確率変数と確率変数
が独立であるとは、
が成り立つということです。これは全く持って当たり前のことではないということに注意してください。独立性が成り立たない場合は
となっているはずです。(あるいは
が成り立っているときにも独立と言えることになる)
独立性が成り立っている例としては2つのサイコロをふるケースが考えられます。個々にサイコロをふるってそれぞれの出た目を見ようが、1個目をふって出た目を見てから、2個目をふろうが何も確率は変わらないはずです。ようするに一方がもう一方に全く影響を与えないのが独立であるということなのです。
独立性が成り立たないケースは、トランプの山から2枚のカードを引くケースです。1枚目の結果次第で、2枚目のカードの確率は変わりますね。
独立であるときは必ず相関係数は0になります(逆は必ずしも成り立つとは限らない)。 それと同時に、独立であれば共分散も0になります。
多次元正規分布へ
一次元の正規分布
一次元の正規分布は以下の式で表されます。
この中でも特別に、であるような正規分布を、標準正規分布と呼びます。一般に、正規分布は平均と分散の値を決めればその形状が決まるので、平均
分散[σ^2]の正規分布を
などと表記することがあります。標準正規分布の場合は
と表記されることになります。
以下は標準正規分布です。
特別な多次元標準正規分布
確率変数を考え、この確率変数は全て、独立に標準正規分布に従うとします。今、N個の確率変数を成分に持つベクトル
を設定しておきましょう。
もしもこのベクトル表記を使わない場合は、とんでもなく大変な目にあいます。線形代数の表記の有り難みが、計算をしてみることで分かるのです。
今、N個の確率変数は全て独立なので、その同時分布は
と、個々の確率密度関数の積となります。一個一個は標準正規分布に従っているので、標準正規分布のN乗を求めればよいことになります。
ここまでは簡単ですね。の外は単純にn乗するだけで、中は和になります。この和を表現するためには、ベクトルの内積を使えば非常に簡単になりますね。
これが、確率変数の各成分が標準正規分布に独立に従うときの、多次元正規分布になります。一般的な多次元正規分布は、これを拡張することによって得られます。
ベクトル、行列を用いた平均と分散の表記
一度ここで、ベクトルの表記に慣れておきましょう。
はN個の確率変数を並べたものです。従って、確率変数
の平均
を同様にして並べたものを、
の平均
と定義しておきます。特別なことは何1つありません。
各成分毎に個別に計算がなされているだけです。
「同様にN個の分散を並べたものをベクトルに」と考えたいところなのですが、ここは行列を使って表現することにします。と
の共分散の式を見てみると
となっています。もしも普通にの分散を求めたければ
として計算すればいいだけの話です。ですから、分散と共分散は一緒に表してしまったほうがいいんです。
N個の確率変数があるとき、と
の分散、
と
の分散...と2つの組み合わせをひたすら考えていくと、
個の組み合わせが考えられます。ならば、それぞれの組み合わせの分散をN✕Nの行列に入れてしまうのが一番ラクな表現方法なのです。
すなわち、N✕Nの行列の
成分に
を入れておこうという魂胆です。多次元の一般的場合が想像付くように、3次元の場合を以下に示します。
対角成分には分散が、非対角成分には共分散が格納されているので、この行列を分散共分散行列と呼びます。ちなみにであるため(これは元の定義式を見れば明らかです)、分散共分散行列は対称行列になっています。
そして、分散共分散行列の
成分は
ということですから、これをベクトル表記に直してしまうと
(縦ベクトル✕横ベクトルは行列)
とも表現できることになります。
ちなみに各成分が独立な標準正規分布に従う場合の多次元正規分布は、共分散が全ての組み合わせで0(独立ならば共分散は0でしたね)で、分散はすべて1となっているので、分散共分散行列は単位行列になります。
先ほど求めた数式は以下ですが、
以下の一般的な多次元正規分布と見比べてください。
共分散行列が単位行列なので、行列式であり、逆行列
なのでそれを代入しただけになっています。次元はN→mになっていますが本質的な問題ではありません。また平均0のケースを考えているので、平均も消えています。
だいぶ、数式に見慣れているのではないでしょうか。あとは、一般的な場合に平均と分散共分散がどのように現れるのかを確認するだけです。
一般の多次元正規分布の概観
先ほどまでは、各成分が独立かつ、平均が0で分散が1の正規分布(標準正規分布)に従う多次元正規分布(標準多次元正規分布)を考えていました。次は一般的な多次元正規分布を考えます。
先に結論を述べると、多次元正規分布は、先程まで考えてきた標準多次元正規分布を線形変換(回転+縮小・拡大)し、定数ベクトル分移動したものなのです。
下の図が標準正規分布で、その右の図がこれを真上から見たものとします。
真上から見た図を適当な方向に縮小して、更に位置をずらしたのが一般的な多次元正規分布なのです(今回は二次元の例です。山の高さが確率を表しています)。
一般の多次元正規分布の導入
これを数式を導入していくと、確率変数ベクトルを線形変換
で変換し、その位置を
だけずらした確率変数ベクトルを
とします。
これの平均と分散を計算してみましょう。期待値演算は確率変数にしか作用しないので
と求まります。 1つ目の平均に関してはは平均が0でしたね。分散共分散行列に関しては、
(単位行列)でした。
あとは、ひたすら式変形が待っています。
⇔
これの微分を求めると多変数の微分を知っている必要がありますが、
となります。これを標準多次元正規分布に辺ごとに乗じてやると
⇔
]
⇔ より
⇔
ここまで式変形できたら、一般の多次元正規分布の確率密度関数は
との関係
を使って
が得られます。あとは指数の中身に関してを代入すると
が得られます。代入の部分は非常に簡単なので是非チャレンジしてみてください。
ここまでの数式が完全に追えたかは分かりませんが、きっと
には怖気づかなくなっているのではないでしょうか。