スポンサーリンク




妥当性(validity)と信頼性(reliability)について

心理学統計用語の、妥当性(validity)と信頼性(reliability)についてまとめてます。

スポンサーリンク
スポンサーリンク




妥当性とは

測定しようとしている心理的特性や行動を、どの程度的確に捉えているかを評価するための概念のことである。まずは以下の図で全体像を参照してから読み進めて欲しいのだが、例えば、身長を体重計で測ったとしたら、何度測定しても40kgと同じ値が得られるだろう。故に信頼性は高いと言える。しかし、身長を体重計で測ることは適切とは言えない。故に、妥当性は低いと言うことになる。また、妥当性は複数の視点から、的確かどうか確認されねばならない。

妥当性の全体像

内容的妥当性

 内容的妥当性とは、測定概念に関わる領域を、網羅できてるかどうかと言う視点で妥当性を検討する。例えば、理系の総合テストが、化学だけであった場合、理系の範囲を覆えていないため、妥当性は低い。なぜなら、理系科目には、物理や生物などがあるからだ。細かいことをいうと、内容的妥当性は、表面的妥当性論理的妥当性に分けられる。

表面的妥当性

テストが見た目上、何を測定しているように見えるかという意味での妥当性をいう。例えば、期末テストの内容が、その学期で学んだ内容を取り上げたものであれば、表面的妥当性は確保されていると言える。回答する側の立場で考えた場合、項目数が多すぎない、質問が平易であるなど、回答に支障がないことも含まれる。テストの真の測定内容とは必ずしも関係はない。しかし、被験者がテストを受ける際の動機づけを維持するために必要なこと。

論理的妥当性

内容が、測定したい概念を適切に測定できているかどうかを論理的に検証するものを言う。これは、概念の理論的背景についての知識を持ち、概念内容を理解していなければできない。そのため、専門家による判断が必要になり、データ分析などの方法は用いない。この他、学力テストや知能検査などにおける測定項目が、測定したい分野や内容から偏りなく選び出されているかなどの検証も内容的妥当性に含まれる。

実験を行う際の内的妥当性と外的妥当性を深掘りしたい方は↓↓↓こちら

研究法の種類分けが非常にややこしく、理解をする上で、絶対にそれぞれの位置付けの様なものを把握しておかねばならない。大まかなイメージ図を作った...

基準関連妥当性

基準関連妥当性とは、理論的に関連が予測される外的基準と、どの程度関連しているかという視点で妥当性を確認するもの。例えば、就職の適正試験の高成績が入社後の高いパフォーマンスに結びついてるのなら、基準関連妥当性は高いと言える。逆に、入社後のパフォーマンスが悪い場合は、試験は正確に適正を測定できてなかった可能性がある。なので、基準関連妥当性は低いと言える。

また、外的基準は、判別的妥当性、予測的妥当性、併存的妥当性の3つに分類される。

判別的妥当性

他より明確な基準によって2群に分けられた対象を、尺度得点によって区別できる程度から評価される。例えば、神経症評価尺度を作成する際に、神経症群と健常群に分かれている2群の得点分布を調べ、ある点数を基準に、2群が別れる場合は判別的妥当性が高いことになる。

予測的妥当性

尺度得点によって将来の事象を予測できる程度から評価される。先ほどのように、入社試験の点数と、1年後の会社での業務成績との間に強い相関が認められた場合、予測測定妥当性が高いと言える。

併存的妥当性

ほぼ同時に実施して得られた外的基準との関連性によって調べられるもの。例えば、うつ病尺度を作成する際に、すでにあるうつ病尺度との相関係数が高ければ、併存的妥当性が高いと言える。

構成概念妥当性

 構成概念妥当性とは、測定しようとする構成概念が、実際にどれくらい適切に測定されているかを確認する妥当性の中でもっとも重要と言われる。例えば、不安を測る検査はいくつも存在するが、それらの検査は本当に”不安”と言う構成概念を的確に表現できているのだろうか?的確に不安を測定できているのであれば、構成概念妥当性は高いと言える。逆に、不安以外の概念を測定してしまっているのだとしたら、構成概念妥当性は低いと言うことになる。

信頼性(reliability)

信頼性とは、データの安定性・一貫性・誤差の少なさのこと。つまり、テストを繰り返し行った時に、ほぼ同じ結果が得られることをいう(測定の正確性)。具体例は、先ほど妥当性で示した通り。

信頼性の検討方法には以下の4つがある。

再テスト法

同一の項目・尺度を同一人に比較的短い期間内に2度試みる方法。利点は、信頼性の定義にもっとも沿っており、直感的にわかりやすいこと。欠点は、時間的なコストが大きいこと。記憶や学習の効果で結果が歪むことがある。

平行テスト法

形式・難易度・平均点などが等質な2つのテストを作り、同時に2つのテストを実施して2つのテスト間の相関係数を算出する方法。

利点は、時間がかからないことと、記憶や学習の影響を受けないことがあげられる。欠点は、平均点が等質な2つのテストを作成することん困難さがあげられる。

折半法

1つのテストを等質な2つのテストに折半し、2つのテスト結果の相関係数を算出する方法。

利点は、平行テストを作成する必要がないため、時間がかからないこと。欠点は、テストを等質に折半することが困難な点があげられる。

α係数

信頼性を、テスト項目の一貫性・等質性とみなし、それを表す概念が内的整合性と呼び、それを数量化した指標をクロンバックのα係数という。

α係数は、0〜1の範囲で、目安として、0.7-0.8以上らならば信頼性が高いと言える。

α係数が示す意味合いは以下の通り。

テスト項目が等質な内容のみで構成されていれば結果の誤差が小さくなり信頼性が高いと言える。逆に、異質な項目が混ざっていると、それが誤差の原因となり、信頼性の低下に繋がる。

利点は、再テスト法、平行テスト法、折半法の3つの欠点を全て補っていること。欠点は、計算が困難であることがあげられる。

スポンサーリンク
スポンサーリンク




スポンサーリンク




シェアする

  • このエントリーをはてなブックマークに追加

フォローする

関連記事

関連記事



AMP用の関連コンテンツ