心理学統計用語の、妥当性(validity)と信頼性(reliability)についてまとめてます。
妥当性とは
測定しようとしている心理的特性や行動を、どの程度的確に捉えているかを評価するための概念のこと。
例えば、身長を体重計で測ったとしたら、何度測定しても40kgと同じ値が得られるでしょう。この場合、信頼性は高いと言えます。しかし、身長を体重計で測ることは適切とは言えませんね。ですので、妥当性は低いと言うことになります。
また、妥当性は複数の視点から、的確かどうか確認されねばならないため、以下の図のように複数種類があります。ですので、以下の図で全体像を参照してから読み進めてください。
内容的妥当性
内容的妥当性とは、測定概念に関わる領域を、網羅できてるかどうかを検討する妥当性のことです。もっと詳しく知りたいかたは↓↓から飛んでください。
実験を行う際の内的妥当性と外的妥当性を深掘りしたい方は↓↓↓こちら
基準関連妥当性
基準関連妥当性とは、理論的に関連が予測される外的基準と、どの程度関連しているかという視点で妥当性を確認するもの。
この妥当性についてもっと詳しく知りたい方は↓↓こちらからどうぞ。
構成概念妥当性
構成概念妥当性とは、測定しようとする構成概念が、実際にどれくらい適切に測定されているかを確認する。妥当性の中でもっとも重要と言われる。例えば、不安を測る検査はいくつも存在するが、それらの検査は本当に”不安”と言う構成概念を的確に表現できているのだろうか?的確に不安を測定できているのであれば、構成概念妥当性は高いと言える。逆に、不安以外の概念を測定してしまっているのだとしたら、構成概念妥当性は低いと言うことになる。
信頼性(reliability)
信頼性とは、データの安定性・一貫性・誤差の少なさのこと。つまり、テストを繰り返し行った時に、ほぼ同じ結果が得られることをいう(測定の正確性)。具体例は、先ほど妥当性で示した通り。
信頼性の検討方法には以下の4つがある。
再テスト法
同一の項目・尺度を同一人に比較的短い期間内に2度試みる方法。利点は、信頼性の定義にもっとも沿っており、直感的にわかりやすいこと。欠点は、時間的なコストが大きいこと。記憶や学習の効果で結果が歪むことがある。
平行テスト法
形式・難易度・平均点などが等質な2つのテストを作り、同時に2つのテストを実施して2つのテスト間の相関係数を算出する方法。
利点は、時間がかからないことと、記憶や学習の影響を受けないことがあげられる。欠点は、平均点が等質な2つのテストを作成することん困難さがあげられる。
折半法
1つのテストを等質な2つのテストに折半し、2つのテスト結果の相関係数を算出する方法。
利点は、平行テストを作成する必要がないため、時間がかからないこと。欠点は、テストを等質に折半することが困難な点があげられる。
α係数
信頼性を、テスト項目の一貫性・等質性とみなし、それを表す概念が内的整合性と呼び、それを数量化した指標をクロンバックのα係数という。
α係数は、0〜1の範囲で、目安として、0.7-0.8以上らならば信頼性が高いと言える。
α係数が示す意味合いは以下の通り。
テスト項目が等質な内容のみで構成されていれば結果の誤差が小さくなり信頼性が高いと言える。逆に、異質な項目が混ざっていると、それが誤差の原因となり、信頼性の低下に繋がる。
利点は、再テスト法、平行テスト法、折半法の3つの欠点を全て補っていること。欠点は、計算が困難であることがあげられる。