やまだです。
前回のエントリで、信頼区間とははなにか?
という話をしてまいりました。
そこで、このエントリーでは、その「求め方」を掘り下げていきましょう。
それでは、今回もよろしくお願いします。
目次
信頼区間の公式
結論から申し上げておくと
- 「信頼区間=標本平均±t×標準誤差」
で求めることができます。
各用語の意味がわからないというかたは、リンク先を辿ってください。
信頼区間を求める全体の流れ
というわけで、先の公式と該当する数値がわかってさえいれば信頼区間は求めることができます。しかし、そういう「受験」的な勉強をしても現実世界ではなんの役にも立ちませんので、「なぜ、そうなるのか?」をできる限り追求しましょう。
というわけで、全体の流れをスモールステップ化してまずはおさらいです。
- 標本の抽出
- その標本から平均と分散を求める
- 標本平均を母平均として扱う
- 標本分散から不偏分散(母分散)を求める
- 不偏分散からt分布(標本平均)の分散を求める
- t分布の分散から標準誤差(t分布の標準偏差)を求める
- 以上から求められた値を「標本平均±t×標準誤差」に当てはめて、信頼区間を求める。
- 「t」の値はt分布表で確認する
このような全8ステップにより構成されます。
それを図解したのが以下です。
定点推定ならここまでの作業で終わりです。しかし、これだけでは決め打ちなので、「予測」としては心配なわけですね。
そこで、「その幅」を求めるわけですね。それが信頼区間でした。
そのためには、「t分布の標準偏差」つまり、「標準誤差」を求めるわけですが、そのイメージ図がこちら↓↓↓
このように、ある標本から、母集団の平均を含むであろう範囲を推測する全体の流れと手続きはわかりましたが。
信頼区間の公式がなぜに、このようになるかいまいちまだわかってません。
実際に信頼区間を求めてみる
そこで、4月14日時点の都道府県別のコロナ陽性患者数を使い、先ほどのスモールステップに沿って信頼区間を求めることにします。
母集団から標本を抽出する
シンプルですね。
母集団は、47都道府県ごとのコロナ陽性患者数です。
厚生労働省のデータを元に、エクセルに整理したのが以下です。
ここから無作為に10件データを抽出するために、RAND関数とRANK関数を使い、乱数表によるランダムサンプリングを実施します。
そのため、エクセルのデータの右2列には「乱数」と「順位」という項目を作ってます。
で、その結果えられたサンプル数「10」の標本①が以下です。
標本から平均と分散を求める
続いての手続きは、ランダムサンプリングによってえられた標本から、平均と分散を求めることでした。
AVERAGE関数とVAR.P関数を使って、サクッと求めると
- 平均・・・158
- 分散・・・34163
という結果になりました。
母集団の平均を予測する
では次ですが、以上の手続きによってえられた「標本平均」と「標本分散」から母集団のそれを予測します。
これは、「母集団の平均は標本の平均に一致する」性質を生かし、今回の標本からえられた「158」という数字をそのまま母集団の平均として扱います。
この辺が理解できない方は↓↓を参照
母集団の分散を予測する
母集団の平均が推測できたところで、同様に「母集団の分散」も予測します。ちなみに、標本からえられた分散に基づいて予測された母分散のことを「不偏分散」と呼びます。
母分散と標本分散は、「母分散>標本分散」のような関係になるので、母平均と違い、標本分散をそのまま不偏分散として扱うことができません。
- 不偏分散=(偏差×偏差)の総和÷(データ数-1)
の公式を使って求めることができます。という訳で、この公式に実際の数字を当てはめて考えるため、まずは偏差をだしましょう。
ここでの偏差の求め方は「患者数-平均」です。
例えば大分なら
- 43-158=-115
となるわけです。
この計算を全ての都道府県について行うと、赤枠のようになります。
次に、偏差の2乗を計算します。
こうなります。
で、この「偏差の2乗した値の総和」が以下ですね。
さあ、これで不偏分散を求めるために必要な値が全て揃いました。
- 不偏分散=(偏差×偏差)の総和÷(データ数-1)
それを、先ほどのこちらの公式に当てはめてみましょう。
データ数=「10」-1なので、「9」で割ります。
- 341630÷9=37958.89
この値が、不偏分散ですね。
不偏分散からt分布の分散を求める
これで不偏分散を求めることに成功しました。お次は、母集団とt分布の関係特性から、t分布の分散を求めます。
その特性とは
- t分布の分散=不偏分散÷標本のサンプル数
でした。なので
- 37958.89÷10=3795.89
となります。これがt分布の分散です。
t分布の分散から標準誤差を求める
さあ、いよいよ大詰めです。
t分布の分散から標準誤差を求めます。
繰り返しますが、「標準誤差」というのは、言いかえれば、「t分布の標準偏差」です。
つまり、t分布の分散の√(ルート)を求めれば、それが「標準誤差」ということです。
この辺の計算はエクセルのSQRT関数を使って以下のように「61.61」と求めることができます。
信頼区間を求める
さあ、いよいよ大詰めです。
これで、ようやく信頼区間の公式に戻ってくることができました。
- 信頼区間=標本平均±t×標準誤差
こちらがその公式でした。
ここまでのプロセスで
- 標本平均・・・158
- 標準誤差・・・61.61
ということがわかっていますので、あとはtの値がわかればいいということです。
この「t値」は、「t分布表」から求めることができます。
そして、今回は、サンプルサイズが「10」であり、そかから1を引いた数、つまり「9」が自由度ということになります。
一方、今回は、95%の信頼区間を求めることにしますので、縦軸「9」、横軸「0.05」で交わるところをみてもらうと・・・
- t値・・・2.262
だとわかります。
したがって、
- 信頼区間=158±2.262×61.61
つまり、
- 158-2.262×61.61=18.64
- 158+2.262×61.61=297.36
となり、
- 信頼区間=18.64〜297.61
と表すことができます。
信頼区間に母平均が含まれるかどうかの検証
はい。
ようやく、「信頼区間」を求めることができましたね。
で、問題は、この範囲に、実際の母平均が含まれているのか否かということです。
実際、推測統計を行うのは、母集団が大きすぎてその調査が行えないわけですが、今回はそれができるので答えあわせをします。
で、その結果
4月14日時点の都道府県別のコロナ陽性患者数の全都道府県の平均は「159.77」でした。
そして、信頼区間は
- 18.64〜297.61
でしたから、この「159.77」という数値は、この範囲に含まれていますよね?
つまり、適切に推測できているということではないでしょうか?
念のため、あと二回ほど同様の手続きを繰り返しました。
その結果
信頼区間
- -196〜765
で、母平均の「159」を含んでいる。
続いて
信頼区間
- 14.〜222
で、こちらも母平均の「159」を含んでいますね。
疑問が残る部分も
ここまでの流れで、信頼区間の求め方はわかりましたが、疑問が解消していない部分もあります。
それは、信頼区間の公式ですね。なぜにtに標準誤差を掛けた値を平均に足し引きするとそれが信頼区間になるのかってよくわかりません。
ただ、ここまでの見解から察するに、t分布表により、自由度によってt値が定められているのは、それが「標準化された値」だからなのでしょう。
標準化されているということは、平均値が「0」であることを意味します。同時に、t=2SDということでもあります。
SDというのは標準偏差のことであり、標準誤差というのは、「t分布の標準偏差」なのですから、t値にそれを掛けるというのは、それを現実値に戻すという意味あいがあるのだと考えられます。
で、平均からその値を足し引きすれば、95%の信頼区間が求められるということなのでは?
と考えました。
とはいえ、この説明では自分の中でまだ理解しきれていないので、まだまだ精進する必要がありますね。
乞うご期待。
参考書
①p値とは何か
②統計学がわかる
③やさしく学ぶ統計の教科書
④よくわかる心理統計