やまだです。
このエントリーでは、エクセルを使った回帰直線の求め方を紐解いていきます。
回帰直線を求める意味
回帰直線を求めるということは、すなわち「回帰式」を求めることになるわけですが、じゃあなんで、回帰直線を求める必要があるのかというと、「可視化」するためです。回帰式というのは、回帰分析するために必要な式のことです。そして回帰分析というのは、1つの変数からもう1つの変数を予測する分析方法でした。
つまり、「回帰式=1つの変数からもう1つの変数を予測するための式」ということになりますよね?
しかし、1つの変数かもう1つの変数を予測するということは、大前提に「2つの変数には関連がある」ということです。ここで思い出していただきたいのですが、「2つの変数の関連」と聞いて、思い浮かぶ分析手法はなんでしょうか?
そう「相関分析」です。
では、相関分析の結果を「可視化」する手法は?
そう「散布図」ですね。
ということは、「回帰直線」というのは、この「散布図」にひかれる直線であるということです。これをまずイメージしておきましょう。
回帰直線を求めるまでの全体の流れ
それではここからは、実際に回帰直線を求めてみたいと思うのですが、相関係数エクセルで求めるために使った、このブログの「記事数」と「PV数」のデータを引き続き扱うことにしましょう。
全体の流れを示しておくと、次の通りです。
- 回帰直線の傾きを求める
- y切片を求める
そして、それぞれの公式は
- 回帰直線の傾き=相関係数×(yの標準偏差÷xの標準偏差)
- Y切片=yの平均-(傾き×xの平均)
です。
したって、回帰直線を求めるためには
- 相関係数
- xの標準偏差
- yの標準偏差
- xの平均
- yの平均
これらの値が必要ということになりますね。しかし、これらの値は、すでに下記のエントリーで求めているので、ここでの計算は省きます。
使うのはこちらの値ですね。記事数がx、PV数がyです。
したがって、
先ほどのそれぞれの値は以下のようになります。
- 相関係数・・・・0.87439
- xの標準偏差・・・52.9018
- yの標準偏差・・・16326
- xの平均・・・157.467
- yの平均・・・22462.4
では、これらの値を以下の公式に当てはめてみましょう。
- 回帰直線の傾き=相関係数×(yの標準偏差÷xの標準偏差)
- Y切片=yの平均-(傾き×xの平均)
回帰直線の傾きを求める
まず、回帰直線の傾きを求めるにあたって、
先ほどの表に、傾きと切片のセルをまず設けましょう。
赤枠で囲った部分ですね。
そして、
傾き=相関係数×(yの標準偏差÷xの標準偏差)
ですから
傾き=0.87439×(16326÷52.9018)
を計算し、答えは以下の通り「269.847」ですね。
回帰直線の切片を求める
続いて、切片を求めます。
切片=yの平均-(傾き×xの平均)
ですから・・・
切片=157.467-(269.847×157.467)を計算し
答えは、「-20029.5」となるわけですね。
回帰直線の式(回帰式)
それでは最後に、以上の値から回帰式を確認します。
- 傾き・・・269.847
- 切片・・・-20029.5
でした。
従って・・・
回帰式・・・・y=269.847x-20029.5
となります。
ご理解いただけたでしょうか。
このデータの散布図に回帰直線を引くとこんな感じになるわけですね。