スポンサーリンク




分散説明率(決定係数)とは

やまだです。

この記事は「分散説明率とは何か?」というテーマでお送りしますが、「重回帰分析」を理解する上で扱っていることをご承知ください。

では、本編に参りましょう。

スポンサーリンク
スポンサーリンク




分散説明率(決定係数)とは

まず、結論です。

分散説明率の定義は以下を使わせてもらいましょう。

従属変数の分散の中で、説明変数によって説明される分散の割合」を意味する。

(引用:多変量データ解析法)より

ということです。

ちなみに、重回帰分析では重回帰式を使って、従属変数の予測をするわけですが、その予測の精度を測る指標として「重相関係数」と「決定係数」がよく挙げられています。そして、この「分散説明率」というのは、「決定係数」と同じものだと思ってください。

では、分散説明率に話を戻します。

分散説明率は、文字通り従属変数の分散の中で、説明変数によって説明される分散の割合のことです。この定義をもう少し噛み砕くと、従属変数の割合を100%としたときに、説明変数の分散の割合がどの程度を占めるかによって、重回帰分析による予測がどの程度正確かを確かめようということです。

わからないと思うので、図解します。

まず、大もとの話をしますが、重回帰分析では、何を予測したいかというと、もちろん「従属変数の値」ですよね?つまり、「予測」をするということは「正解」があって、その正解は何か?というと、それが「従属変数」だという話です。

そして、分散というのは、「データのばらつき」のことでしたから、従属変数が100%予測できるということは、「予測値のばらつき」が「従属変数のばらつき」と一致していたらいいということになります。とはいえ、そんなことはまずあり得ません。しかし、この考えにもとづけば、「予測のばらつき」が「従属変数のばらつき」に近いほど、予測の精度が高いだろうということになります。

例えば、食事量と運動量から体重を予測しようと考えます。そこでデータを収集し、従属変数(体重)と重回帰式から導かれた予測値の分散をそれぞれ求めたとします。したらば、予測値の分散が、全体=従属変数(体重)の分散のうち80%を一致していたとします。これはつまり、予測値が、従属変数(体重)の80%程度を予測できているのだとイメージしてください。そして、ここまでの説明が上図ということですね。

誤差の分散

では、残りの20%はなんなのか?という話になるのですが、それが重回帰モデルのところで話した「誤差」です。正確に言えば、今は「分散」を基準にして話しているので、「誤差の分散」ということになりますね。

先ほどの図を使うとこうなります。

「食事量と運動量」という2つの独立変数から説明(予測)できる割合が80%、説明(予測)できない割合が20%というイメージです。よって、この「誤差が小さいほど、予測が正確」であることを意味します。

分散説明率(決定係数)の求め方

では最後に、分散説明率の基本的な考え方を踏まえた上で、その値を求める式をご覧ください。

  • 予測値の分散/従属変数の分散=1-誤差の分散/従属変数の分散

この式によって求められた値がイコール「分散説明率」なわけです。

これは、どういうことかというと、あるデータから求めた重回帰式によって、予測値および誤差を求め、そこに従属変数の値も加えるとその3つには次のような関係が成り立ちます。

  • 「従属変数の平方和=予測値の平方和+誤差の平方和」

この証明は、実際にデータを集めてやってみればわかるということになるのだが、ここでは割愛しますが、そのうちYouTubeにでもしてここに貼り付けようかな

で、話が変わるのですが、ここで思い出してほしいことがあります。あるデータにおける分散とは、偏差の2乗の総和(=平方和)を平均のことだったはずです。

つまり、平方和をデータ数で割った値が「分散」なのです。ということは

  • 「従属変数の平方和=予測値の平方和+誤差の平方和」

という式の両辺をデータ数で割ると、

  • 「従属変数の平方和/データ数=予測値の平方和/データ数+誤差の平方和/データ数」

ということになりますね?

で、「平方和をデータ数で割った値=分散」なのですから、以下のように表すこともできるということです。

・「従属変数の分散=予測値の分散+誤差の分散」

おわかりでしょうか?

ここで、ようやくもどってきたのです。

「分散説明率」の定義に。

分散説明率とは、

「従属変数の分散の中で、説明変数によって説明される分散の割合のこと」です。

よって、「従属変数の分散=予測値の分散+誤差の分散」という式こそ、その定義を如実に表していると言えますよね?

従属変数の分散は、予測値の分散と誤差の分散の合計なのですから、予測値の分散が「従属変数の分散のうちどの程度の割合を占めるか」ということがわかれば、予測の精度の目安になるということです。

そして、これは、従属変数の分散が「1」つまり「100%」だという考え方をするわけです。そこで、先ほどの「従属変数の分散=予測値の分散+誤差の分散」この式の両辺を「従属変数の分散」で割ります。なぜなら、「従属変数の分散」=「1」として考えやすくしたいからです。

そうすれば

  • 「1=(予測値の分散/従属変数の分散)+(誤差の分散/従属変数の分散)」

となります。

これがこの章の冒頭に示した、「分散説明率」を求める「計算式」になわけですよ。ちなみに、右辺についてですが、予測値の分散と誤差の分散をそれぞれ「従属変数の分散」で割るということは、それはつまり「従属変数の分散」のうち両者の分散が「どの程度の割合を占めるか」ということを意味します。そして、それらを合計することが「1(100%)」になりますよ。ということを示していると言えます。

最初に示した、「予測値の分散/従属変数の分散=1-誤差の分散/従属変数の分散」という式は、「1=(予測値の分散/従属変数の分散)+(誤差の分散/従属変数の分散)」の式から、右辺の「(誤差の分散/従属変数の分散)」の部分を、左辺に移動して符号が「ー」に変わっただけですので、全く同じものですね。

参考書

①よくわかる統計法

②多変量データ解析法

スポンサーリンク
スポンサーリンク




スポンサーリンク




シェアする

  • このエントリーをはてなブックマークに追加

フォローする

関連記事

関連記事



AMP用の関連コンテンツ