HELLO CYBERNETICS

深層学習、機械学習、強化学習、信号処理、制御工学、量子計算などをテーマに扱っていきます

標本数が多い場合の標本平均はガウス分布になる誤解の多い話

 

 

follow us in feedly

はじめに

中心極限定理と呼ばれるガウス分布にまつわる恐ろしく強力な定理に関して、勘違いが出てくることが多いようなので、勘違いが出る理由と実例について簡単に見ます。

中心極限定理

中心極限定理とはコトバに「極限」が含まれている通り、何かを無限大に飛ばしたときに何かが(非自明な)極限値を持つことを述べた定理です。

標本数

ここで重要なコトバとして「標本数」というのを見ておきましょう。 不慣れな場合だと、標本とかサンプルと言ったとき、何か1つのデータのように思ってしまうのではないでしょうか。統計学のコトバとして使わない限りは、例えば、ある部品メーカに「サンプルを1つください」といえば部品を1つ送ってくれることでしょう。あるいは「クワガタムシの標本を1つ見せてください」といえば、クワガタムシがキレイに飾られた姿が見られるかもしれません。

しかし、サンプルとか標本という言葉を統計学のコトバとして使った場合には、たくさんのデータを集めた「データ集合」のことを指します。そして、サンプル数とか標本数と言った場合には、データ集合が何個あるのかを指すのです。

「ちょっと待ってください。データ集合が1つあれば統計分析は始められるのだから、サンプル数とか標本数というのはデータ集合に何個のデータが含まれているのかを表すコトバとして使うんじゃないのですか?」

という疑問を持った場合には、これまでコトバを誤用していた可能性が高いです(もちろん、別途、データ集合のデータの個数を表すコトバと、データ1つ1つを表すコトバが特別に存在しても良いと思います)。今この疑問を持った人に対して、その「データ集合の中のデータの個数」を表すコトバは、統計学では「サンプルサイズ」と呼ばれるようです。

なぜに標本数を必要とするか

では、わざわざ固有名詞を付けたことにどんな理由があるでしょうか。

例えば研究者が100人いるとしましょう。各々の研究者が同じ対象について調査しデータを採取し、「標本(データ集合)」を作ったとしましょう。そうした場合には、100個の「個別の」標本が存在することになります。各々の研究者がどのようにデータを集めたかは分かりませんが、きっと全く同じデータにはなっていないはずです。

しかし各々の研究者が調べている対象は同じであり、そこで明らかにされるべき真実も同じはずです。なのにデータの中身はそれぞれちょっとずつ違っているのです。さすれば、同じ統計分析を行っても結果が異なってきます。ならば、各々が集めた標本(データ集合)の間にある差異を評価してやる必要が出るのです。もしも、その差異が異様に大きいとしたならば、データの集め方には問題があるかもしれません。

標本平均

本来明らかにしようとしている真実は同じなのだが、100人の研究者が集めた標本は少しずつ違います。でも真実が同じなのであれば、「違う」と言っても「似ている」はずです。そこで、それぞれの標本の平均を比較してみることにしましょう。100人の研究者がそれぞれ、「自分の集めたデータは凡そ、こんな値になっている」という代表値として平均値を使って「似通っているか」を提出しあったとしましょう。

真実は同じなのだから、この代表値は似通っていると思えますが、データはそれぞれ異なっているのですから完全に一致はしません。そこで、今提出しあった代表値がどれだけバラついているかを見てみたいということになります。

つまり、100人の研究者が自身の自慢の標本の代表値として、標本の平均を提出し、その値の分布を見てみよう。という話になったのです。整理すると研究者 $D _ i$ の標本を

$$ D _ i = {x _ {i1}, ..., {x _ {iN}}} $$

とします。すると、この標本の代表値 $\mu _ i$として

$$ \mu _ i = \frac{1}{N} \sum _ {n=1} ^N x _ {in} $$

を作ったということです。いま $D _ 1 $ から $D _ {100}$ まである中で、それぞれが $\mu _ i$ を提出したのです。

ここで大事なのは $n$ というのはある標本の中のとあるデータに対してのインデックスであり、$i$ というのは標本に対する(ここでは研究者に対する)インデックスになっているということです。

標本平均の分布の極限

さて、$\mu _ i$ という研究者が出し合った代表値(標本平均)の分布はどうなっているでしょうか。 本来 $D _ i$ は同じ真実を持つ対象から、個別に採取された標本でした。したがってその代表値も似ているのです。すなわち、理想的には $\mu _ 1 = \mu _ 2 = ...$ となっててほしいのだが、データの採取にはノイズが乗るので代表値にもノイズが乗っているのです。

これをヒストグラムにしてみたらどんな形になっているのでしょうか? もしも研究者が1人しかいないなら、その人がどれくらい大きな標本を持っていようが代表値は1個です。今、研究者が100人いますから代表値が100個あるわけですね。これを研究者の数(標本数)を増やしていったら、ヒストグラムは鮮明に何らかの分布を描くようになります(見えてなかったが見えるようになる)。

その分布がガウス分布になるのです。

研究者 $i$ が $N$ 個のデータを集めているとして、100人の研究者がいれば$N$個のデータからなる標本が100個得られます。すなわち代表値が100個得られます。この代表値の分布が「研究者の数(標本数)」増やすとガウス分布を描けるようになる(1個じゃ見えません)、というのが中心極限定理の応用(?)の1つになります。

ここで、研究者が$N$ 個のデータを集めたと言っていますが、ここに$N$ は標本として十分な役割を果たすかどうかが重要です。ところがそれはひとまず置いておくとして、今は研究者の数が増えれば正規分布であることが見えるようになる…と言っているだけということに注意が必要です。

中心極限定理の誤用

さて、今、上記の話を中心極限定理の応用の1つと言いました。中心極限定理は標本平均の分布に対する定理ではなく、本来はもっと一般的な定理であるということです。それは、ちゃんと勉強しなければわからないことなのでここでは割愛しますが、

間違っても、確率変数があるときになんか数を増やせばガウス分布に近づくらしい

なんて解釈をしないようにしてください。恐ろしいことに、そんなことを述べている教科書があるとかないとか…

データで見る標本平均の分布

さて、研究者の事例の如く、データを見てみましょう。

ある標本の分布(データの分布)

import tensorflow as tf
import tensorflow_probability as tfp
import matplotlib.pyplot as plt
import numpy as np

plt.style.use("seaborn")

さて、まず適当な分布からデータを100個採取したとしましょう。なんだか偏りのあるデータが得られたようです。しかし、今、偏りがあるような分布からデータを発生させたので、これは真実を捉えているのです。しかし、真実そのものではありません。高々100個のデータではすべてを知ることはできないのです。

tfd = tfp.distributions
beta = tfd.Beta(2, 5)
beta_sample = beta.sample(100)
plt.hist(beta_sample.numpy(), bins=10)

f:id:s0sem0y:20191010235657p:plain

とある標本の代表値:標本平均

さて、上記のサンプルサイズ100の標本の標本平均を見てみます。

tf.reduce_mean(beta_sample).numpy()
# 0.2809502

平均は 0.2809502 になっていたようです。なるほど、ひとまずこの標本の代表値をこれにしましょう。

1000人の研究者に協力してもらう

さて、ここでは1000人の研究者に同様の手続きをとってもらいます。すなわち個別にサンプルサイズ100の標本を準備してもらうことで標本を1000個獲得します。そうすることで1000個の標本平均が得られるので、こいつの分布を見てやろうという話です。

本来は同じ分布から発生したデータを、個々の研究者にも集めてもらっているのですから、提出される標本平均は似通っていることが期待できますがどうでしょうか…?

dist_list = []
for _ in range(1000):
    dist_list.append(tf.reduce_mean(beta.sample(100)).numpy())
plt.hist(data_list)
# 1000個の標本平均が表示

f:id:s0sem0y:20191011000238p:plain

確かに提出された標本平均はおおよそ0.28あたりに集中しており、左右ほぼ均等にバラついています。

本当の中心極限定理

実は中心極限定理は大数の法則と密接に関係しています。 大数の法則とは、$X _ 1, X _ 2, ... , X _ N$ と独立同分布から発生する確率変数列があるときに、この確率変数 $X$ なるものの期待値 $\mathbb E [X] = \mu$ と有限の分散 $V[X]$ が存在するとして、$n \rightarrow \infty$で

$$ \frac{1}{N} \sum _ {n=1} ^ N X _ n \rightarrow \mu $$

となることを表す法則です(正確には大数の弱法則)。 これは「サンプルサイズ」に関する極限の話であり、すなわち、とある1つの標本の中でのデータに関して、データ数を増やせば真実の期待値を標本平均で表すことができるという法則になります(ここではガウス分布の話など一切していない)。

これが中心極限定理と密接に関係しているせいで、サンプルサイズを増やせばその標本が(!!?)ガウス分布に近づく…と混同してしまうのではないかと思います(プラス言葉使いの難しさもある)。

さて、大数の法則で気になることが1つあるのではないでしょうか。結局のところ真の分布の期待値を捉えるためにはサンプルサイズはどれくらい大きい必要があるのかです。実はこれは「わからない」のですが、どれくらい増やしていけば、どれくらい真の期待値に近づいていきそうか、つまり収束の速さを議論することはできます。

具体的にはサンプルサイズが $N$ の標本平均 $\hat X _ N$ に関して、期待値 $\mu$ との差を $d _ N = \hat X _ N - \mu $と置いておきます。 $d _ N = 0$ ならば $N$ 個の時点で標本平均が期待値を捉えたということになります。さて実際のところはそうではないわけで、$d _ 1, d _ 2, d _ 3, ...$ とサンプルサイズが増えるにしたがって、こいつがどのように小さくなっていくかが見どころです。

今、適当な $r _ N$ という値があるとしましょう。もしも $r _ N d _ N$ という値が $N$ (サンプルサイズ)を増やしていくに連れて $0$ に近づくならば、 $d _ N$ の収束(すなわち標本平均が期待値に近づく度合い)は $r _ N$ よりも速いということになりますし、 $\infty$ に近づくならば $d _ N$ の収束は $r _ N$ よりも遅いということになります。どうにかこうにか適当な $r _ N$ を見繕って、不等式で挟んだりして評価できないでしょうか?

もしも、 $r _ N d _ N$ が$0$ に収束したり発散したりということをせず、ある値に収束するのだとしたら、それは $r _ N$ と $d _ N$ が同じくらいの収束速度であるということになります。実はそのような $r _ N$ を $d _ N$ (というよりは正確には $\hat X _ N$ )の収束率と言います。

中心極限定理とは

独立同分布に従う $X _ 1, X _ 2, ... , $ という確率変数列に関して $\mu = \mathbb E[X]$ と $V [X]$ が存在するとして、

$$ \sqrt {N} (\hat X _ N - \mu) \rightarrow \mathcal N(0, \sigma ^ 2) $$

に分布収束する(サンプルサイズ$N$ の増加に従って)という定理になります。これは要するに $r _ n d _ n $ が適当な値に収束すれば標本平均 $\hat X _ N$と期待値 $\mu$ との差異 $d _ n = \hat X _ N - \mu$ が $r _ n$ という収束率を持つ、という話に戻れば、

標本平均は $r _ N = \sqrt{N}$ という収束率を持つということです。そしてこの式は、そのまま読めば

「サンプルサイズのルート」と「標本平均と期待値との差」の積は、サンプルサイズの増加に従い分散が $\sigma ^ 2$ の正規分布に従うという意味になります。ここまでは単に「1つのとある標本とそのサンプルサイズに関して、サンプルサイズを大きくすれば…」という話が展開されています。しかし、「標本平均と期待値との差」という言葉の通り、今述べているのは「確率変数 $X$」に関することではない点に注意です。

そして、これを書き直すと、サンプルサイズ $N$ の標本平均 $\hat X _ N$ は

$$ \hat X _ N \sim \mathcal N \left(\mu, \frac{\sigma}{\sqrt{N}}\right) $$

と書き換えることができ、サンプルサイズ $N$ が相応に大きければその標本平均 $\hat X _ N$ を確率変数の如く扱うことで、その確率変数がとあるガウス分布に従うと読むことができます。

すなわち、沢山研究者を集めて沢山標本を作って、標本平均を提出しあってヒストグラムを見てみれば、そいつは正規分布を描く…と言っているのです。そして、その正規分布は個々の研究者が集めた標本のサンプルサイズ $N$ が大きくなるにつれて鋭くなるのです。 なぜなら、1つ1つの標本が導く標本平均が、サンプルサイズが大きいことによって大数法則で期待値(真実)に近づき、そもそも真実に近い値を提出しあっているのだから、そのヒストグラムは幅が狭くなるのです。

そうして、標本平均に関して、ある程度大きなサンプルサイズで標本を(ヒストグラムが描ける程度に)沢山集めれば、正規分布であることが可視化できそうである。

という話になります。

補足

つまるところ、"標本平均の分布"は1つ1つの標本のサンプルサイズが大きければ

$$ \hat X _ N \sim \mathcal N \left(\mu, \frac{\sigma}{\sqrt{N}}\right) $$   と、ガウス分布に従っていると見なせるのです(標本がではなく、標本がたくさんあるとしたときの、ある1つの標本の平均値がです)。

サンプルサイズが十分に大きな標本が1つだけあるとすると、その標本平均は、真の平均(期待値)を中心に小さな分散のガウス分布になっているということですから、 こうして、サンプルサイズが十分に増えていくときの、標本平均値が真の平均に漸近する大数の法則の漸近するスピードを評価することができるようになりました。

そして、いざ標本をたくさん集めてみれば、その標本平均のヒストグラムを描くことで「ああ、確かに標本平均はバラつきを持っているものの、概ねある値の周辺に集まっているな」ということが可視化できるようになるのです。 別に標本がたくさんなければ、標本平均がガウス分布に従っているとみなせないわけでもないです。

最後に

と私は理解しているのですが、プロの方、間違いがあったら厳しく教えて下さい。