やまだです。
以下より始まった「猿でもわかって欲しい統計シリーズ」ですが
今回は、「t分布」というテーマでお送りしていきます。
目次
t分布とは
t分布とは、母集団から、標本を抽出し、その平均を求めるという作業を繰り返し、それら①標本平均の平均を求める、②標本平均の分散を求めるという2つの計算をし、その値から描かれた分布図のことです。
ですから、イメージとしては、「ミニ母集団」という表現がふさわしいのかもしれません。
そして、このt分布は
- 「標本平均の平均」=「母平均」(標本平均は母平均に一致する)
- 「標本平均の分散」=「母集団/標本のデータ数」
といった2つの特性を持っています。
全国のコロナ患者数を扱ってt分布を考えてみる
とはいえ、以上の説明ではわからないことも多いと思うので、ここからは体験型の説明でお送り致します。
ここで言っていることを具体化するために、4月10日時点での各都道府県のコロナ陽性患者数を母集団として考えていくことにしましょう。
これをエクセルにまとめると↓↓のようになります。
標本を抽出する
データの整理を終えたら、t分布を描くための手続きとして、標本を抜き出しましょう。
サインプルサイズは「10」にします。つまり、それぞれの都道府県が選ばれる確率は1/47ということになります
次に、エクセルの「RAND関数」と「RANK関数」を使って、サンプルサイズ「10」の標本を「5」回抽出します。
以下が、そのうちの標本①〜③です。
以下が標本④〜⑤ですね。
これが第一の作業である、「標本を抽出する」ということです。
それぞれの標本の平均を求める
さて、続いてすべきはなんでしたでしょうか?
「標本平均の平均」と求めることでした。
そのために、まずは1つ1つの標本の平均を求めます。
先ほどの「標本(サンプル)①」において、「AVERAGE関数」を使い平均を算出しましょう。
すると、サンプル①の標本平均は「55.5」と求めることができました。
赤枠で囲った部分のことです。
そして、この手続きを他のサンプルに対しても行います。
以下のようになりますね。
これでそれぞれのサンプルの平均が
サンプル①・・・55.5
サンプル②・・・144.4
サンプル③・・・64.3
サンプル④・・・300.9
サンプル⑤・・・67.3
だとわかりました。
これが、「標本1つ1つの平均を求める」ということです。
標本平均の平均を求める
これで「t分布の平均」として扱われる「標本平均の平均」を求める下ごしらえが整いました。
あとは、標本平均を以下のように整列させて、先ほど同様、「AVERAGE関数」を使って、「126.48」という値を求めます。赤枠で囲った部分ですね。
これが、「標本平均の平均」というわけです。
つまり、この「126.48」という値が「t分布」の「平均」なのです!!!
標本平均の分散とは?
それでは、もう1つ、t分布を描くために必要な情報はなんだったでしょうか?
「標本平均の分散」でしたね。
この言葉の意味を理解するのに僕はどうにも時間がかかりました。いやはや。
これは、先ほど得られた「それぞれの標本平均」を1つ1つのデータと考えればいいわけです。つまり、「標本平均の」とかいうからなんかわかりづらかったので、「このデータの分散」といえばしっくりくると思うのです。
つまり、以下「データの分散」を求めれば、それが「t分布」の「分散」ってことです。
分散の求め方は↓↓こちら
ここでは、「VAR.P関数」を使って、簡易に分散を算出します。
「8630.0496」という値がでました。
これが、「標本平均の分散」であり、すなわち「t分布の分散」となるのです!!!
t分布と母集団の関係性を確認する
最後に、ここまで求めた値を整理します。、このデータの分布こそ「t分布」であ
- 平均(標本平均の平均)・・・126.48
- 分散(標本平均の分散)・・・8630.0496
というのが、t分布の代表値だということになりますね。
では、この「t分布の平均と分散」が「母集団の平均と分散」とどのような関係があったでしょうか?
- 「標本平均の平均」=「母平均」(標本平均は母平均に一致する)
- 「標本平均の分散」=「母集団/標本のデータ数」
でしたね。
そこで、本当にこうなるのか、確かめて見ましょう。
つまり、母集団の平均と分散を求めて、確かめるのです。
ちなみに、母集団の平均と分散は以下の通りです。
- 平均・・・111.787
- 分散・・・58403.573
で、これらを表にまとめました。
いかがでしょう?
平均はまあ、概ね一致していると言っていいのでしょうね。
問題は、分散です。
「t分布の分散」=「母分散/標本のデータ数」でした。
そして、母分散は、58403で、標本のデータ数は「10」でしたから、「5840」ですね。
これをt分布と比べると、その差は「2790」です。
これは「「一致している」とは言い難い気がします。
おそらくは、サンプルの抽出数を増やしていくと、母集団の値との一致度が高くなると思うのですが、その作業はとにかくここまでにして、「t分布」がなんなのか?母集団とどのような関係があるのか?ということを理解してもらえばいいと思います。
問題は、で、このt分布ってなんの役にた立つの?って話だと思うのですが、それはまた次回。
参考書
①p値とは何か
②統計学がわかる
③やさしく学ぶ統計の教科書
④よくわかる心理統計