ども、心理士気触れのやまだです。
下記の記事より続く統計シリーズ、本日は、ヒストグラムについて情報をお届け致します。
細かい前置きは抜きにして早々に本編に入っていきましょう。
では、本日もよろしくお願いします。
ヒストグラムとは
ヒストグラムとは、度数分布表(量的変数のもの)をグラフにしたものです。
もう少し分解して表現すると、データの個数がどの値からどの値の範囲に、どのように散らばっているかを棒グラフ的に表したものがヒストグラムです。
ヒストグラムを作る理由は、度数分布表を作るのと同様です。全体像を把握するためであり、それをより視覚的に捉えやすくするためでしょう。
ヒストグラムは、縦軸が度数、横軸が階級で表されます。
実際のヒストグラムはこんな感じ
というわけで、百聞は一見にしかず。ごちゃごちゃ言ってねーでさっさと物を見せろやって感じですよね。
実際のヒストグラムを見るとこんな感じです。
ちなみに、こちらのヒストグラムの作成にあたっては、過去エントリーで取り上げた、「他者意識得点」という度数分布表を作る際の具体例を引き継いで作成していますので、言葉の意味を詳しく知りたい方は、↓↓↓を参照のこと。
それはさておき、こうやって目を通すとデータの個数のばらつきが一目瞭然ですよね?
32点〜52点の範囲に人が集中し、52〜60点が最も少ないことがわかります。このように可視化できることが、ヒストグラムの意義だと言えます。
とても棒グラフに似てますよね?
ですから冒頭の説明で「度数分布表を棒グラフ的に表したもの」と述べたのです。
しかし、これをお読みのあなたは思ったでしょう。
「棒グラフと何が違うの?」と。
棒グラフとヒストグラムの違い
棒グラフとヒストグラムの違いは、横軸の値が「連続変数であるかどうか」です。
つまり、棒グラフと見比べていただくと一目瞭然ですが、ヒストグラムには棒グラフのように、棒と棒の間に「すきま」がありませんね。
この意味するところは、度数分布表をヒストグラムに反映させようとする場合、その度数分布表で用いられている値は「量的変数」だということです。
一方、度数分布表が棒グラフとして反映されているとしたら、「それは連続変数ではない」つまり、「質的変数」が扱われてるということになります。変数が連続していないということは、「すきまがある」ということです。だから、「棒グラフ」なのです。
ヒストグラムを作ることのメリット
それと、ヒストグラムを作ることのメリットとしては、データの誤りに気付きやすいということが挙げられます。
例えば、先に挙げたヒストグラムの範囲は12-60点でしたが、エクセルに全部で150人分データを入力し、それを範囲指定することでグラフ化しています。
つまり何が言いたいかというと、150人分のデータを1個ずつ丁寧に間違いがないか確認していくのはしんどいということです。
ですが、ヒストグラムにすると一目瞭然です。
先ほどのヒストグラムと同じ原本データを使って、ヒストグラムを作ったらこんな感じになったとします。
ですが、これはおかしい。
なぜなら、先ほど申し上げた通り、度数分布の値の範囲は12-60のはずです。
しかし、赤枠で囲ったよように、125まで範囲が拡張されています。
つまり、誤って、115-125の範囲の数値を入力しているということですね。
これにより、データ入力の際に間違いがあったということがわかります。
参考書
①統計学がわかる
②やさしく学ぶ統計の教科書
③よくわかる心理統計