やまだです。
本エントリーのテーマは「因子分析における、共通性」についてです。
- 共通性ってなに?
- 共通性と因子負荷量の違いがよくからない
- 共通性と共通因子の違いがよくわからない
このような、疑問を持たれている方はぜひお読みください。
共通性とは
共通性とは、因子分析における分散説明率のことを言います。
分散説明率って何?という方は、
重回帰分析の絡みで別エントリーを設けているので、↓↓をご参照ください。
https://human-relation.net/psychology/distributed-explanatory-rate/
ただ、分散説明率の定義だけはここに載せておきますね。
「従属変数の分散の中で、説明変数によって説明される分散の割合」を意味する。
(引用:多変量データ解析法)より
これを因子分析の場合にはどのように考えればいいのか、スモールステップで分解していきましょう。
まず、「従属変数」というのは、因子分析の場合は、観測変数のことをさします。では、「説明変数」は何か?というと、「因子」のことですね。最後に、「分散」はなんだったかというと、「データのばらつき」のことでしたね。つまり、「観測変数のデータのばらつきの中で、因子によって説明されるデータのばらつきの割合」と言い換えることができます。もっというと、分散説明率とは、「分散からわかる、共通因子が観測変数に影響を与えている割合」であり、「分散から考える、共通因子により説明できる観測変数の割合」ということですね。
そしてそれこそが、「共通性」だと言えます。
因子分析における共通性の意味
どういうことでしょうか?
分散説明率のエントリーにて詳しく説明してますが、従属変数の割合を100%(つまり、「1」)としたときに、説明変数の分散の割合がどの程度を占めるかを考えることによって、予測がどの程度正確か、その目安になるのが重回帰分析における「分散説明率」の意味でした。
一方、因子分析では、同じく従属変数の割合を100%としたときに、説明変数の分散の割合がどの程度を占めるかを考えることによって、因子からどの程度観測変数を説明できているかの目安になるのが「分散説明率」の意味です。
なぜ「分散(データのばらつき)」をみるのか?という話は、さすがにここでは割愛するのでやはり分散説明率のエントリーをご覧ください。
もう少し具体的に共通性を考えてみる
例えば、ある因子分析の結果、こんなパス図が作成できたとします。分析対象は、このブログで、観測変数は①PV数、②収益、③滞在時間、④直帰率、の4つです。1つ1つの意味を知りたい人は、分散説明率の記事を呼んでください。
で、そのような観測変数の背景には、「マーケティング性」と「コンテンツ性」という因子があったということが以下の図では示されてます。
そして、このパス図から、滞在時間に関係する部分だけを以下のように切り取って、みてみます。
この図は、従属変数(滞在時間)の値が「1」になっていますね。これはすでに標準化されていることを意味します。そして、重回帰分析の時同様に、「誤差の分散」とはすなわち「誤差の大きさ」を示します。そのため 、滞在時間の分散「1」に対して、誤差の分散「0.39」ということは、それがそのまま滞在時間に対する、誤差の割合ということになるわけです。そして、「誤差」というのは、「共通性」によって説明できない観測変数の割合を意味します。これを「独自性」と言います。
因子分析の分野では、この分散説明率を、特に共通性と呼ぶ。この用語は、「各変数の分散のうち、共通因子によって説明される成分の割合」という意味をもつ。共通性に対する語として、標準解の誤差の分散(先導については0.41)を、特に独自性と呼ぶ。この語は、「観測変数の分散のうち、誤差つまり独自因子の大きさが占める割合」という意味を持つ。
(引用:多変量データ解析法)より
一方で、「独自性」の割合がわかったということは、「共通性」の割合もわかったということです。なぜなら、「1ー独自性=共通性」だからです。つまり、「1-0.39」の計算によってもたらされた「0.61」という値が共通性だとわかります。よって、ブログの滞在時間という観測変数は、コンテンツ性という因子によって、6割ほど影響を与えているということがわかります。
これが「共通性」の考え方です。
共通性と因子負荷量の違い
ちなみに、パス図だけ見ると、最初「え?因子負荷量が観測変数に与える影響の値じゃないの?」と疑問を持たれている方も多いのではないでしょうか。
ただ、見出しに「共通性と因子負荷量の違い」と銘打ってますが、実際は同じものを説明していると考えてください。僕の理解では、共通性と因子負荷量の関係っていうのは、「分散と標準偏差」に近いのかなって気がしています。
なぜなら、「因子負荷量の2乗=共通性」だからです。
共通性は、観測変数ごとの因子負荷の2乗和です。
(引用:統計学がわかる 回帰分析・因子分析編より)
これは言い換えれば、「共通性の平方根=因子負荷量」ってことですが、「分散と標準偏差の関係」もこれと同じです。「分散の平方根=標準偏差」ですよね?ってことは「標準偏差2乗=分散」です。だから似た関係と表現したのです。そして、分散も標準偏差も「データのばらつき」を示すものでした。違いは、標準化されているかどうかです。
ちなみに上記の引用は、「2乗和」という表現をしてますが、それは因子が複数ある前提なので、観測変数1つに対し、因子1つの関係でみた時の、1つ1つの合計ってことだと考えてもらえればいいと思います。
例えば、先ほどの例でこの意味を説明します。このパス図で言えば、 因子負荷量は「0.78」です。では、共通性はというと「0.61」でしたよね?
これを整理すると
- 因子負荷量・・・0.78
- 共通性・・・0.61
このようになりますね。そして、この2つの関係性は、「因子負荷量の2乗=共通性」なのですから、計算して
- 0.78×0.78=0.61
が成立するということですね。左辺の「0.78×0.78」を実際に計算すると答えは、「0.6084」となり、四捨五入すると「0.61」で、見事に一致してますね。これが、「共通性と因子負荷量が、実際は同じものを説明している」といった理由です。
従属変数に伸びるパスが、1つの説明変数からのパスに限られる場合には、その標準パス係数(因子負荷量)の2乗が、分散説明率(共通性)と一致する。例えば、「無愛想」の共通性は、1-.0.29=0.71であるが、これは(-0.84)の二乗に一致する。つまり、標準パス係数の絶対値と、分散説明率(共通性)は同様の情報を担う。
(引用:多変量データ解析法)より
共通性と共通因子の違い
また、混同しがちなのが、「共通因子」と「共通性」という言葉のですが、共通因子は、「観測変数AとBに共通して影響を与えている因子」のことです。共通性は、「1つの観測変数にある因子が影響している分散の割合」のことです。
全く違うので、覚えておきましょう。
参考書
この書籍はある程度の基礎がわかっていないの読み進めることが難しいと思いますが、中級者にしてみると、コンパクトにまとまっているのでわかりやすいです。もっというと、下の上〜中の下ぐらいに位置する人向けかなという印象です。