心理学には、この種の測定に特化した「心理測定学」という学問分野があります。 特定の研究分野における評価がその目的を果たすためには、受験者の知識や技能のレベルをスコアに反映させる必要があります。教育評価を目的とした心理測定では、受験者のレベルを客観的に測定するために、いくつかの基準が設けられており、その基準のひとつに「正確さ」があります。
用語の説明 正確性これは、評価の心理測定に関する中心的な2つの概念、すなわち妥当性と信頼性の包括的な用語として機能するため、重要です。この2つの概念は、データ収集ツールの品質と正確さを示す指標となります。教育の世界では、これは受験者のスコアを収集するために使用されるアセスメントを指します。
では、妥当性と信頼性とは何でしょうか。
妥当性のこと。 教育アセスメントにおいて、テストが有効であること。 有効である。テストが測定するために設計されたものを測定する場合、有効である。つまり、妥当性とはは、テスト自体の特性ではなく、結果のスコアが受験者のレベルを推測するためにどの程度使用できるかを意味します。
信頼性。 一方、テストが信頼できるかどうかは、その内容や何を測定するように設計されているかとは関係がなく、むしろ、それが一貫して測定することになっているものを測定しているかどうかということです。 言い換えれば つまり、あるテストのスコアが、ある時点から次の時点まで一貫している度合いを指します。
この2つのうち、妥当性は、実際の評価内容に関係するため、一般に評価の質や正確さにとって最も重要であると考えられています。
テストが有効かどうか、どうやって判断するのですか?
一言で言えば、テストが有効かどうかを確定するには、テストスコアの(解釈)を、テストが測定するように設計された概念に関連付ける証拠を見つけることが必要です。この証拠は、さまざまなソースから取得され、それがサポートするために使用されている妥当性の種類に応じて、さまざまな形式をとります。教育アセスメントで考慮すべき主な有効性のタイプは3つあり、テストが有効であると認められる前に、これらすべての証拠が必要とされます。
あなたのテストが有効かどうかを確立するために、次の質問を自分自身に投げかけてみてください。
- 何を測定したいのか、その評価はそれをカバーしているのか?これは、次のように呼ばれています。 内容の妥当性.
- その評価は、内容をどの程度測定しているのか?これは、以下のように呼ばれています。 基準妥当性.
- 実際に内容を測定しているのか(それとも別の何か)?これは、次のように呼ばれています。 構成要素の妥当性.
もし、あなたが学生のために準備している評価に、これらの妥当性測定のすべての証拠を見つけることができれば、学生の知識をテストする有効な方法であると考えることができます。
テストが信頼できるかどうか、どうやって判断するのですか?
アセスメントが有効であることが確認できたら、次は、異なるシナリオ、たとえば異なるグループ、異なる期間で使用したときに、そのアセスメントが正しく機能しているかどうかをテストします。これが信頼性の本質です。
テストの信頼性を調べるには3つの方法があり、以下のような質問を投げかけることで対応できます。
- テストの結果は再現可能ですか?言い換えれば、あるグループの生徒が2回テストを受けた場合、同様の結果が得られるかどうか? これは、次のように呼ばれています。 テスト再試行信頼性.
- 同じような評価を短時間で受けた場合、同じような結果になるのでしょうか?これは、順位だけでなく、得点の類似性についても言及されておりとして知られています。 代替形式信頼性.
- テストは内部的に一貫しているか?これは、ある概念の理解を評価するために、評価の内容がどのように連動しているかを測るもので、次のように呼ばれています。 内部一貫性の信頼性.
あなたが学生のために準備している評価で、これらの信頼性尺度のすべての証拠を見つけることができれば、学生の知識をテストするための信頼できる方法であると考えることができます。
-
妥当性アセスメントが、ある教科の受験者の知識やスキルを正確に測定しているかどうかを判断するには、妥当性と信頼性が重要な要素となり ます。テストは、受験者のスコアの解釈が、テストが測定するために設計されたものに直接関連することができる場合、有効であり、異なる受験者や同じ受験者が異なる時期にテストを受けた場合でも、テストを複数回適用した場合に同じである場合、信頼性があると言えます。 言い換えれば、これらの2つのコンセプトは、テストを準備する際に不可欠な考慮事項であり、学生に使用するアセスメントの品質を保証する基準として適用することが非常に重要です。