研究レポート

性格検査の特異項目機能(DIF)検出の取り組み

公開日
更新日
性格検査の特異項目機能(DIF)検出の取り組み

本レポートでは、適性検査の品質管理として、性格検査項目に対する特異項目機能(DIF)分析を試みた研究事例を紹介する。

執筆者情報

https://www.recruit-ms.co.jp/assets/images/cms/authors/upload/3f67c0f783214d71a03078023e73bb1b/66a6c52901164c859f3f548ba37f14b9/ito_0Z3A5391.webp

技術開発統括部
研究本部
測定技術研究所
研究員

伊藤 有梨花(いとう ゆりか)
プロフィールを⾒る

1.はじめに

適性検査の品質管理は、適切な採用や公正な人事評価を実現するために重要な課題である。リクルートマネジメントソリューションズでは、これまで適性検査における性格検査の品質管理を尺度単位で実施してきた。しかし、昨今の激しい社会的変化や価値観の多様化を踏まえると、個々の項目単位での品質管理の重要性が高まっている。性格検査は能力検査よりも比較的項目劣化速度は遅いと考えられるのが一般的だが、特に上述のような状況下では項目特性が時間の経過や受検者の特性によって大きく変化する可能性があり、それを適切に評価・管理することが求められる。

このような課題に対し、特異項目機能(Differential Item Functioning: DIF)の分析は、項目単位での品質管理を行うための有効な手段である。DIFとは、テストが測定しようとしている特性・能力が等しいにもかかわらず所属する下位集団によって正答率が異なる状態として定義され(野口・渡辺,2015)、主に学力テストの分野で研究が進められてきた。本研究では性格検査におけるDIF検出を試みることで、性格検査の項目単位での品質管理の可能性を検討する。

2.DIFとIPD

学力テストの分野では、DIFは回答バイアスやテストにおける不平等を是正するために広く研究されてきた(野口・大隅,2014)。例えば、同じ能力水準の男女が同じ問題を解いた場合に、男性(または女性)の正答率の方が明らかに高いとすると、その問題は特定の性別に有利な項目である可能性が高く、DIF状態にあると考えられる。こうしたDIF検出の取り組みは、テストの公平性の確保や測定上のバイアスを是正することに繋がり、適正な評価を行うための重要な情報を提供してくれる。

本研究では、このDIFの概念を性格検査に応用し、従来のDIF研究で用いられてきた「性別」や「人種」などの集団比較ではなく、受検年によって形成された下位集団(2013年と2022年の受検者)を用いた分析を行う。このように、DIFの検出対象を時間軸で区別する場合、下位集団による回答の変化はすなわち時間経過による回答の変化ということになり、それはアイテムパラメータドリフト(Item Parameter Drift: IPD)として捉えられる(Goldstein, 1983)。

IPDとは、あるテスト項目において、時間の経過と共に項目の特性(例えば困難度や識別力)が変化する現象を指す。例えば、ある性格特性を測定する質問項目が、2013年の受検者と2022年の受検者にとって異なる意味内容となってしまう場合、その項目はIPDを引き起こす可能性がある。IPDを発生させる要因としては、寺尾(2022)を参考にすると以下のようなものが考えられる。

  • 言語の変化: 時間が経過することで、設問の表現や単語の解釈が変わる可能性がある(例: 「リーダーシップ」の解釈が異なる時代背景によって変化する)。
  • 項目の露出回数の増加による変化:項目の露出回収が増加すると、テストの品質自体が劣化してくる可能性がある。
  • 社会情勢や環境変化による項目内容の変化:時代と共に価値観が変化したり、時事的な事柄による影響を受けたりすると、本来測定したいことを測定できなくなる可能性がある(例:メディア等で頻繁に「忖度」という単語が取り上げられたことにより、漢字の読み方の難度が変化する)。

本研究では、これらの要因を踏まえ、2013年と2022年の受検者の回答データを比較し、性格検査の項目が時間の経過によってどのように変化しているのかをDIF分析によって明らかにする。

3.方法

3-1.データ

当社が保有する適性検査の、2013年と2022年の性格検査のデータを用いた。調査対象者は、当該年で大学卒業見込みの20~21歳の男女5000名ずつ、計20000名である。DIF検出の対象となる項目は、本検査に含まれる全性格検査項目で、284項目27因子である。また、4件法を2件法に加工し分析を行った。

3-2.DIF検出手法

DIFの検出においては、単一の手法ではなく複数の手法を組み合わせて総合的に判断することが重要である(熊谷・荘島,2015)。各手法にはそれぞれの強みと制約があり、異なる視点からDIFを検出することで、より信頼性の高い結果を得ることができる。本研究では、以下の3つの異なるDIF検出手法を組み合わせて分析を行った。

(1)項目反応理論(IRT)に基づく手法

2パラメータ・ロジスティック・モデル(2PL)を用いて、2013年と2022年の各項目の難易度パラメータ(b)および識別力パラメータ(a)の違いを評価する。評価の際には、項目特性曲線(Item Characteristic Curve: ICC)の面積差に対して、母集団分布で重みづけした指標K(熊谷,2012)を採用した。この手法は、項目レベルのパラメータ変化を詳細に分析できるが、モデルの適合性や母数推定の安定性に依存するという制約がある。

(2)Mantel-Haenszel (MH)法

伝統的なDIF検出手法であり、カテゴリカルデータを対象とする。2つの集団の間で、各項目の回答に統計的に有意な差があるかを検定する。計算が比較的簡便であり、小規模データにも適用可能であるが、識別力の違いには対応しづらいという弱点がある。

(3)ロジスティック法

能力水準を共変量として考慮し、グループ影響を統計的に評価する(Swaminathan & Rogers, 1990)。モデルには基本モデル(能力のみ)、群別モデル(能力+グループ)、交互作用モデル(能力×グループ)を使用し、均一DIF・非均一DIFの両方を判定する。連続変数(IRT能力値など)を考慮できるため、より柔軟な分析が可能であるが、データサイズによる影響を受けやすい。

4. 結果

3つの手法を用いたDIF分析の結果、いくつかの項目で統計的に有意なDIFが検出された。分析手法ごとの結果は以下のとおりである。

(1)項目反応理論(IRT)に基づく手法

284項目中7項目において有意な差が認められた。Mantel-Haenszel法やロジスティック法と比較して検出数は少なかった。

(2)Mantel-Haenszel(MH)法

Mantel-Haenszel統計量から求められるΔを算出したところ、ETS基準(Zwick, 2012)において2項目に顕著な差、17項目に中程度の差が認められた。

(3)ロジスティック法

ほぼすべての項目で有意な差が認められた。しかしながら、検定手法はサンプル数が多い場合には実質的な差がないにもかかわらず有意とみなされてしまう可能性があるため、その解釈には注意が必要である。

次に、DIFが検出された項目の一部を例として記載する。

  • 活動性を測定するために「休日を屋内で過ごすかどうか」を尋ねる項目において、同じ「活動性」を持つ受検者を比較したところ、2022年の受検者は「活動性」の高さに関わりなく2013年の受検者よりも高いスコアを示す傾向がみられた。
  • 独自性を測定するために「人と同じ行動を取りたくないかどうか」を尋ねる項目において、同じ「独自性」を持つ受検者を比較したところ、2022年の受検者は「独自性」の高さに関わりなく2013年の受検者よりも低いスコアを示す傾向がみられた。
  • 従順性を測定するために「厳しい指導を受けられる職場で働きたいかどうか」を尋ねる項目において、同じ「従順性」を持つ受検者を比較したところ、2022年の受検者は「従順性」の高さに関わりなく2013年の受検者よりも低いスコアを示す傾向がみられた。
  • 高揚性を測定するために「たまに羽目を外してしまうことがあるかどうか」を尋ねる項目において、同じ「高揚性」を持つ受検者を比較したところ、2022年の受検者は「高揚性」の高さに関わりなく2013年の受検者よりも低いスコアを示す傾向がみられた。
  • 自律性を測定するために「人に頼らず自分の力で物事をやり遂げたいかどうか」を尋ねる項目において、同じ「自律性」を持つ受検者を比較したところ、2022年の受検者は「自律性」の高さに関わりなく2013年の受検者よりも低いスコアを示す傾向がみられた。

5.考察

本研究では、2013年と2022年の性格検査データを用いてDIF分析を実施し、項目単位での品質管理の可能性を検討した。その結果、使用した3つのDIF検出手法(IRTに基づく手法、Mantel-Haenszel法、ロジスティック法)により、それぞれDIF項目が検出された。

まず、IRTに基づく分析では、7項目においてDIF(IPD)が確認された。この方法は項目のパラメータ変化を詳細に捉えることができる点で有用であるものの、検出数は比較的少ない。とはいえ、人数分布を加味していることからDIFによる実質的な影響度合いが大きいものは検出できていると考えられる。一方、Mantel-Haenszel法では、2項目に顕著なDIFが、17項目に中程度のDIFが認められた。この手法は伝統的なDIF検出方法として安定性が高く、当社の適性検査における品質管理の観点からも特に有用な分析手法であると考えられる。

また、ロジスティック法では、ほぼすべての項目で統計的に有意な差が確認された。しかし、この手法はサンプルサイズが大きい場合、小さな差でも有意と判定されやすい傾向がある。当社の適性検査は年間のべ数百万人が受検するため、ロジスティック法によるDIF検出結果は、実質的な項目特性の変化を反映しているとは限らない。したがって、ロジスティック法は当社の品質管理には必ずしも適した手法ではないことが示唆された。

また、DIFが検出された項目の傾向を分析すると、社会・文化の変化に影響を受けた可能性があることが示唆された。例えば、「休日を屋内で過ごすかどうか」では2022年の受検者のスコアが高く、これはコロナ禍の影響やリモートワークの普及により、生活スタイルが変化したことを反映している可能性がある。また、「人と同じ行動を取りたくないかどうか」のスコアが低下していたことは、個人主義的な価値観の変化を示唆しているかもしれない。さらに、「厳しい指導を受けられる職場で働きたいかどうか」では2022年のスコアが低下しており、近年の労働環境に対する意識の変化が影響していると考えられる。

6.結論

本研究の結果から、性格検査の項目において経年的なDIF(IPD)が発生する可能性が確認された。これは、性格検査の設問が時代の変化に影響を受けることを示しており、検査項目の継続的な見直しが必要であることを示唆している。したがって、性格検査においてもDIF分析を活用した定期的な項目単位での品質管理が求められる。特に、社会・文化の変化が激しい時代においては、項目特性が変化しやすいため、従来の尺度単位での品質管理に加え、項目単位での検討を行うことで、より公平で正確な適性検査の実施が可能となると考えられる。

今回、DIFが顕著に検出された項目については、今後の適性検査の改訂等を慎重に検討する必要がある。また、本研究では複数のDIF検出手法を比較したが、今後は多値データに対応したDIF検出手法の導入や、より精度の高い分析手法の検討が求められる。これにより、性格検査の公平性と測定精度を一層向上させることが可能となるだろう。

参考文献

Goldstein, H. (1983). Measuring changes in educational attainment over time: Problems and possibilities. Journal of Educational Measurement, 20(4), 369–377.
熊谷龍一・荘島宏二郎 (2015). 教育心理学のための統計学―テストでココロをはかる. 誠信書房.
熊谷龍一(2012).統合的 DIF 検出方法の提案―“EasyDIF”の開発―. 心理学研究,83(1),35-43.
野口裕之・渡辺直登(2015).組織・心理テスティングの科学―項目反応理論による組織行動の探求―. 白桃書房.
野口裕之・大隅敦子(2014).テスティングの基礎理論―基本理論から最先端理論まで―. 研究社.
Swaminathan, H., & Rogers, H. J. (1990). Detecting differential item functioning using logistic regression procedures. Journal of Educational Measurement, 27(4), 361–370.
寺尾尚大(2022).項目パラメタドリフトの検出と原因の検討・共通尺度への影響―そのドリフトはどこから来てどこへ行くのか―. 日本テスト学会 第20回大会発表抄録集.
Zwick, R. (2012). A review of ETS differential item functioning assessment procedures: Flagging rules, minimum sample size requirements, and criterion refinement. Research Report ETS RR-12-08. Educational Testing Service.

  • SHARE
  • メール
  • リンクをコピー リンクをコピー
    コピーしました
  • Facebook
  • LINE
  • X

関連する記事