人事アセスメントの品質とは？

理論／技術

公開日: 2024.05.07
更新日: 2024.09.04

SHARE
- Eメール
- リンクをコピー
  コピーしました
- Facebook
- LINE
- X

採用選考、昇進昇格、能力開発などの様々な場面において人事アセスメントは利用されている。こうしたアセスメントは、意思決定を行うための参考材料として利用されることが多く、その品質が担保されていないと、ミスジャッジを促してしまう可能性がある。また、近年、人事データ活用の流れの中で、人事アセスメントデータが用いられることも増えてきた。そうした背景を踏まえ、今回は、アセスメントの品質がどのように定義されているのかについて整理を行っている。

執筆者情報

https://www.recruit-ms.co.jp/assets/images/cms/authors/upload/3f67c0f783214d71a03078023e73bb1b/768c7d6b4ed748eab5aa146aa755959a/1906071542_2117.jpg

技術開発統括部
研究本部
測定技術研究所
主幹研究員

仁田光彦（にたみつひこ）

プロフィールを⾒る

アセスメントの品質
信頼性
妥当性
信頼性と妥当性の関係
標準性
おわりに
参考文献

アセスメントの品質

人事アセスメントの測定対象は、人や組織の特性である。重さや長さのように物理的な実体があるわけではない、概念的な人や組織の特性を得点化・可視化しているという意味で、算出される測定結果はあくまで推定値であり、そこには測定誤差（得点のぶれ）が含まれることが常である。

アセスメントの品質については、心理統計の分野では長年1つの研究対象となっており、考え方や指標が整理されている。一般的に良いアセスメントの条件としては「測定対象の特徴を誤差なく正確に表すことができる」「測定対象を適切に測定できる」「結果を基準とする集団の水準と比較できる」ことが重要であると考えられており、それぞれ「信頼性」「妥当性」「標準性」という言葉で表現される。今回は、アセスメントの品質を考えるうえで重要な、信頼性、妥当性、標準性について簡単に解説を行いたい。

信頼性

信頼性は、アセスメントの得点がどの程度安定しているかを示す概念である。アセスメントの得点には、大なり小なり必ず測定誤差（得点のぶれ）が含まれている。アセスメントを通じて本来測定したい得点を“真の得点”と表現すると、アセスメントの得点＝真の得点＋測定誤差と表すことができ、測定誤差が小さいほど、安定した結果が得られると考える。つまり、信頼性は測定誤差の小ささを示す概念と言い換えることもできる。測定誤差が大きく、信頼性が低いことはアセスメントにとっては致命的な欠点であり、そのようなアセスメントでは安定した得点が得られないということになる。

このような信頼性の概念は、信頼性係数という指標によって示されており、推定方法はさまざま存在するが、今回は代表的な以下の3つの方法をご紹介したい。

＜図表1＞信頼性係数の代表的な推定方法

信頼性係数の代表的な推定方法

再テスト法）
再テスト法は、同じテストを2回実施して、その間の相関係数を信頼性係数の推定値とする方法である。この方法は、信頼性係数を測定するうえで、非常に有用な方法であるが、2回の実施時期の間隔の長短によって影響を受ける可能性がある。間隔が短ければ、1回目の回答の記憶が2回目の回答に影響を与える可能性が高く、信頼性係数は高く見積もられることになり、また間隔が長ければ、1回目と2回目の間で受検者の特性が変化する可能性があり、信頼性係数は本来の値よりも低く見積もられてしまう可能性がある。

平行テスト法）
平行テスト法は、2種の質問項目は異なるが同等の平行テストを用意し、同一受検者に双方のテストを実施し、両者の相関係数を信頼性係数の推定値とする方法である。理論的には再テスト法で算出される信頼性係数の推定値と同等であると考えられているが、現実場面で2つの平行テストを作成することはあまり現実的ではない。この際、1つのテストを2分割して、平行テストとみなし、それぞれの得点の相関を信頼性係数と考える、折半法と呼ばれる推定方法も存在するが、分割の仕方によって信頼性係数の推定値が左右される可能性がある。

内的一貫性から推定する方法）
内的一貫性による方法は、各質問項目の回答パターンに受検者間でどの程度整合性が認められるかを示しており、クロンバックのα係数が最もよく使用される指標である。再テスト法、平行テスト法と比較して、1回の受検データから算出できるため、その簡便さから一般的に広く普及している指標である。非常に便利で有用な指標であるが、項目間の首尾一貫性を反映したものであり、再テスト法、平行テスト法などのように時間的な安定性を示す手法ではないことに注意が必要である。また、信頼性係数は項目数が増えると高くなる特徴をもっていることも併せて認識できるとよいだろう。

上記のような手法によって推定された信頼性係数の値の基準はアセスメントの種類で異なるが、適性検査などを例に取ると、一般的に0.7～0.9程度（1に近いほど信頼性が高い）が目安の基準として知られている。こうした基準を下回る場合は、その安定性に不安が残るアセスメントであると考えられるため、利用を検討する際には注意が必要である。

妥当性

妥当性は、測定対象を適切に測定できているかを示す概念である。具体的には、アセスメントが測定しようとする特性を適切に測定する質問項目を備え、それが得点に反映されているかどうかを示している。目に見えない構成概念を可視化するツールとしてのアセスメントでは、こうした構成概念を実際に測定できているのか、ということを示す妥当性は極めて重要である。

妥当性の種類については、さまざまな議論があり、かつては、「構成概念妥当性」「内容的妥当性」「基準関連妥当性」など、いくつかの妥当性の種類に分類されて議論されたり、近年では、全て「構成概念妥当性」という概念に集約されつつある、という議論もされたりしている（村山, 2012）。重要なのは、妥当性の検証は、多面的な観点からの検討が必要なテーマであるということである（図表2）。今回は、妥当性というものがどのような形で検証されるべきものかというのを、代表的な観点を示しながら整理してみたい。

内容的な側面）
測定するものが、構成概念のすべての側面を網羅的にカバーできているかを示す側面である（内容的妥当性と表現される）。例えば、「言語検査」の測定を行う際、単語の意味を問う語彙だけの問題が用意されている検査は、妥当性があるといえるだろうか。「言語検査」というからには、おそらく語彙だけでなく、文章を読み解く問題や正しく文章を構成する問題などにより、バランスよく多面的に言語能力を測定すべきだと考えられる。こうした内容的な側面からの妥当性は、開発者間、専門家との合議などによって担保されるべき性質のものである。

外的な基準との関連性の側面）
測定対象とは別の外的変数との間に、理論から予測されるパターンの関係がみられるかを示す側面である（基準関連妥当性と表現される）。例えば、新たにストレス耐性を測定するアセスメントを開発した場合、既存の抑うつを測定する尺度とは一定の関係性があることが予想される一方で、社交性を測定する尺度とはあまり関係性がないことが予想される。こうした尺度のデータ収集を行い、相関などを用いて相互の関係性を比較することで、新たに開発したアセスメントの妥当性を確認することができる（前者は収束的妥当性、後者は弁別的妥当性と表現される）。また、上記の例では測定概念間の関係性を確認しているが、アセスメントの利用目的と照らして適切かという観点もある。例えば、採用時に利用される適性検査は、入社後のパフォーマンスを予測するという目的で導入される。こうしたケースでは、適性検査と入社後のパフォーマンス（人事考課や昇進スピードなど）の相互の関係性を比較することで、実際に入社後のパフォーマンスを予測するツールとして妥当性を確認することができる（予測的妥当性と表現される）。

このように、妥当性は多様な観点から確認されるべきものである。加えて、アセスメントを取り巻く社会環境が変化することによって、質問項目が当初の妥当性を失う可能性もあるため、妥当性は一度検証されて終わりではなく、不断の継続的な検証が必要となってくるテーマであると考えられている。

＜図表2＞構成概念妥当性をベースとした妥当性の考え方

構成概念妥当性をベースとした妥当性の考え方

Messick, 1995; 平井, 2006; 村山, 2012を参考に作成。
さまざまな側面から“妥当性”の証拠を提示することの重要性が指摘されている。

信頼性と妥当性の関係

これまで説明してきた信頼性と妥当性は、以下のような矢と的の図で示すことができる（図表3）。信頼性は、アセスメント得点の安定性を示す概念であり、矢が安定的に一貫して同じ場所を射ることができていることを示す。妥当性は、アセスメント得点が測定したい対象を適切に測定できているかを示す概念であり、矢が的の中心を射ることができていることを示す。アセスメントの品質を捉えるうえでは、信頼性、妥当性の双方が満たされていることが重要になってくる。

＜図表3＞信頼性と妥当性のイメージ

信頼性と妥当性のイメージ

標準性

汎用的に利用されるアセスメントにおいては、基準とする集団と照らして、相対的に得点が比較できる状態を担保していることが望ましいとされる。こうした手続きは標準化といわれており、本レポートでは、「結果を基準とする集団の水準と比較できる」ことを標準性が担保されていると考える。アセスメントの利用目的によっては、こうした標準性が重視されない場合もあるが、人事アセスメントなどの、他者との相対的な比較が求められることが多いケースにおいては重要な観点となってくる。こうした標準性には、何よりも偏りのない豊富な基準集団のデータが重要となる。

おわりに

今回は、アセスメントの品質に焦点を合わせて解説を行っている。近年、HRデータ活用の文脈で適性検査をはじめとしたアセスメントが活用される機会も増えてきている。こうした状況だからこそ、あらためてアセスメントの品質に目を向けることの重要性が増してきているように感じる。概念的な人や組織の特性を得点化・可視化するアセスメントだからこそ、その方法を選択する際には、ぜひ今回お伝えしたような観点にも目を向けていただき、有効に活用していただけることを願っている。

参考文献

村山航（2012）　妥当性　概念の歴史的変遷と心理測定学的観点からの考察, The Annual Report of Educational Psychology in Japan, Vol.51, 118-130.
日本テスト学会（2007）　テスト・スタンダード――日本のテストの将来に向けて――, 金子書房.
二村英幸（2005）　人事アセスメント論――個と組織を生かす心理学の知恵――, ミネルヴァ書房.
岡田謙介（2015）　心理学と心理測定における信頼性について――Cronbachのα係数とは何なのか、何でないのか――, The Annual Report of Educational Psychology in Japan, Vol.54, 71-83.
繁桝算男（2023）　心理・教育・人事のためのテスト学入門, 誠信書房.