やまだです。
本記事より統計の新シリーズ開幕です。
テーマは、「重回帰分析」です。
目次
重回帰分析とは?
重回帰分析を説明するにあたって、下図を参照し、まずは「重回帰分析が、多変量解析の1つ」だということをよく理解してください。
各データが複数の変数をもつデータをのことを「多変量データ」と呼びます。例えば、人を対象としてデータを集める場合、個人の「性別」や「年齢」あるいは「年収」など複数項目に関するデータを集めますよね。それが「多変量データ」です。
そして、そのような多変量データを同時に分析することで、変数間の関係性や特徴を見出すことができます。これが「多変量解析」であり、その中の1つが「重回帰分析」ということなのです。
重回帰分析って、どんな分析?
以上を踏まえ、重回帰分析がどんな分析なのか?
ということについて話を進めます。
簡潔に述べると
重回帰分析とは「複数の独立変数の影響力を探り、従属変数の予測を行う」分析方法のことです。
「複数の独立変数」という点が、「1つの独立変数から、従属変数の予測を行う」回帰分析とは異なります。
具体的に考えてみる
例えば、ブログのPV(ページビュー)数がどうすれば伸びていくためには、直帰率(ブログを1ページしか見てない人の割合)と滞在時間(1つの記事を読んでる時間)が関係あると仮定します。
その場合、独立変数と従属変数は以下の様になります。
- 独立変数①・・・滞在時間
- 独立変数②・・・直帰率
- 従属変数・・・PV数
つまり、直帰率と滞在時間が「原因」、PV数が「結果」であると考えて、その結果を予測しようというわけです。
重回帰分式
で、この予測をするための式は
- 「y=ax+ bz+c」
と、このようになります。
つまり、
- x・・・滞在時間
- z・・・直帰率
- y・・・PV数
という事を想定してます。
この様に、独立変数が複数になったときの回帰式を重回帰式と呼び、各独立変数に対応した回帰係数を偏回帰係数と呼びます。
ここでの、独立変数はxとzですから、それに対応している「a」と「b」が偏回帰係数に該当します。
実際に、重回帰式を作ってみる
と、こんな説明をしてもあまりピンとこない方も多いかと思うので、実際に重回帰式を作ってみることにします。
どうやって作るのかといえば、こちらのデータを使います。
先ほどの
- 「y=ax+ bz+c」
という式に、こちらのデータを代入するのです。中学生のときにやった連立方程式を解くときのノリですね。
- 1100=75a+70b+c
- 1200=90a+65b+c
- 900=60a+ 80b+c
で、この連立方程式を解くと、
- a=8
- b=4
- c=220
と決まります。
これで、重回帰式が
- 「y=8x+ 4z+220」
となる事がわかりましたからこれで、「それぞれの独立変数に対応した回帰係数」、つまり、「偏回帰係数」もわかります。
- x(滞在時間)の偏回帰係数・・・8
- z(直帰率)の偏回帰係数・・・4
という事ですね。
では最後に、この偏回帰係数から、重回帰分析のもう1つの目的について考えてみる事にします。
重回帰分析の、もう1つの目的
すでに述べたとおり、重回帰分析の目的は、複数の独立変数から従属変数の値を予測する事です。しかし、それ以外の目的にも使われる事があります。それは、各独立変数が従属変数に与える影響を比較する事です。
どういう意味でしょうか?
先ほどのブログのPV数を予測するための重回帰式を使って考えてみましょう。
- 「y=8x+ 4z+220」
すでに述べたとおり、この式の偏回帰係数は、以下の通りです。
- x(滞在時間)の偏回帰係数・・・8
- z(直帰率)の偏回帰係数・・・4
そうすると、この2つの偏回帰係数で、大きいのは「滞在時間」の「8」ですよね。
ということは、PV数に与える影響は、直帰率よりも滞在時間の方が大きいと言えるのでしょう?
そうではありません。
なぜなら、このままでは単位が異なるからです。この重回帰式は、もともと直帰率(%)と滞在時間(秒)で求めましたよね?とであれば、このまま比較するのは変な話で、算数の成績と英語の成績を比べて、どっちのが頭良い?みたいな比べ方をしてるってことですよ?
加えて、その意味がは、平均的によっても異なります。つまり、同じ80点だったとしても、平均点が50点なのか、それとも90点なのかでその意味が大きく変わってくるということです。したがって、偏回帰係数を比較するためには、この十回帰式を「標準化」する必要があるということです。
まとめ
さて、いかがでしたでしょうか?
最後に重回帰分析の要点をまとめておわかれです。
- 重回帰分析は、多変量解析のうちの1つ
- 重回帰分析は、2つ以上の独立変数から従属変数を予測する回帰分析の1種
- 従属変数を予測する式は、「重回帰分式」と呼ばれ「y=ax+ bz+c」の形をとる
- 重回帰分析は、独立変数が従属変数に与える影響を比較する目的でも使われる
参考文献
①統計学がわかる(回帰分析・因子分析編)
②よくわかる心理統計
③やさしく学ぶデータ分析に必要な統計の教科書
Twitterでのリツイートやコメント
まだ投稿して間もないのに記事を見つけていただいたようです。ありがたいですね。
重回帰分析とは?https://t.co/zBxz7jnOca
— mori (@konosora25) August 2, 2020
そのリツイートに対するコメントです。役に立ってるようでよかったです。
わかりやすいです????
— 保健師のもぐもぐ (@hokenshi_mogu) August 2, 2020