研究レポート

―能力適性検査にまつわる疑問― 受検者によって出題される問題が変わるのは不公平か?(後編)

公開日
更新日
―能力適性検査にまつわる疑問― 受検者によって出題される問題が変わるのは不公平か?(後編)

前編では大学入学共通テストに代表される一般的な学力テストと採用場面で用いられる適性検査の違いと、きちんとした理論に基づいて開発・運用されているテストであれば出題される問題が異なっていても公平である、ということに触れました。

後編では、「公平な測定」について掘り下げて考えたあとで、SPI3の適応型出題の仕組みと、この出題方式が公平なだけでなく受検者にとってもメリットがある、ということをできるだけ分かりやすく解説します。

執筆者情報

https://www.recruit-ms.co.jp/assets/images/cms/authors/upload/3f67c0f783214d71a03078023e73bb1b/b0374c17ed3b424da3f22749d20b749c/sugiyama_0Z3A4382.webp

技術開発統括部
研究本部
測定技術研究所
主任研究員

杉山 剛(すぎやま たけし)
プロフィールを⾒る

公平な測定とは

公平な測定をするためには、同じ物差しで測る必要があります。同じものを測るのに、使う物差しによって測定結果が違うようでは公平とはいえません。

長さであれば直接見て把握することもできますが、能力適性検査の場合、測る対象は目に見えない「能力」というものです。

メートル原器のような絶対的な基準となるものもないので、測定はさらに難しくなります。そこでテスト理論の助けを借りるわけです。

前編で合格ラインが70点の大学入試のお話を書きましたが、合格ラインすれすれの学生を想定して、その学生が各問題にどのくらいの確率で正解するかを予測することができれば、テスト理論に基づいて合格ラインの学生が70点になる(確率が最も高い)テストを作ることは可能です。

ただここで大きな問題が生じます。どのような専門家が作成したとしても作成した問題項目の正答率を事前に精度高く予測することは不可能、ということです。倉元1は「テストの実施前に正答率を論じることについて、思いつくのは簡単だが、過去の実施結果のデータでも用いない限り、実際には大変難しいものなのである。まして、設問ごとに『5%以内の誤差の推定』を行うことを技術的に可能にする方法論があるとは信じがたい」とのべています。同じ書籍のなかで実験も行っており、5%はおろか20%刻みの推定も困難、ということが明らかになっています。

予測が難しい大きな原因としては、どんなに注意して作成した問題でも、実際に出題してみると思わぬ回答傾向が出たり正解といえなくもない答えが複数あったりといったことが発生し得る、という事実があります。大学入試で「正解が複数あったので採点対象外とされた」といったニュースをご覧になったことがある方もいらっしゃるのではないでしょうか。

つまりテストを誰も受けたことがない状態では、同じ物差しかどうかが保証されていないということです。繰り返しになりますが、全員が同じ日に同じテストを受け、そのテストの結果だけで比較するなら物差しが1つですので大きな問題はありません。しかし別の日や前の年のテスト結果と比較する、となると物差しの違いが重大になってきます。前編で「標準性があれば比較が可能」と書きましたが、物差しがバラバラの状態では標準性の確認もままなりません。

重要なステップ「予備テスト」

そこで重要になってくるのが予備テストと呼ばれるステップです。大学入試改革に興味をおもちの方は、大学入学共通テスト関連のニュースで取り上げられたのをご覧になったことがあるかもしれません。

予備テストで集めた回答データを分析することで、テスト問題一つひとつの特性が分かります。難しい問題なのか易しい問題なのかということがありますし、能力が高い人ほど正答しやすく低い人ほど間違いやすい、いわゆる質のよい問題なのかどうかも分かります。また、見ようによっては正解が複数ある、能力レベルと関係なく一定割合が正解する、といった問題の不具合を発見して正式版のテスト問題から除外することも可能になります。

テスト理論の1つ、項目反応理論は、問題一つひとつが特性値(特性を数値化したもの)をもっているという考え方をします。その特性値が分かっていれば、どんな組み合わせで出題しても同じ物差しで能力レベルを推定することが可能になります。

特性値をどうやって求めるかについては専門的になりすぎるので割愛します。ここでは予備テストのデータを分析することによって特性値が判明し、同じ物差しで測定できるようになる、とだけご理解ください。項目反応理論を使った相互比較可能なテストについて詳しくお知りになりたい方には光永2をお薦めします。

さてここまでの話をまとめると、公平な測定をするには同じ物差しが必要で、同じ物差しであるということを保証するためには予備テストなどで集めたデータを分析し、項目の特性を把握する必要がある、ということになります。

ただしもちろん、項目反応理論を適用し、予備テストを行えばそれだけで公平性が担保されるわけではありません。理論を適用するためには、理論が前提としている条件を満たすような問題作りから始まり、問題内容の吟味、予備テストの分析結果を踏まえた問題の見直し、特性値の推定など、問題項目の管理運用が適切に行われていることが大前提となります。

適応型出題の仕組み

ここまで述べてきましたように、同じ物差しである、ということが保証されるならば出題される問題が異なっていても公平性は担保されます。公平性を担保したうえでえ、さらに効率的な出題を実現しているのが適応型出題です。

効率的というのは、受検者の能力レベルに応じた難しさの問題が出題されるということです。能力レベルが高い人に易しすぎる問題を出したら正解するのは当然です。もちろんうっかりミスをする可能性はゼロではないので100%とまではいいません。それでもそんな問題を解くのに時間をかけてもらうより、正解できるかどうか五分五分の問題を解いてもらい、正解したらもっと手ごたえのある問題を解いてもらった方が効率的に能力レベルを測定できます。

適応型出題のイメージをもっていただくために、視力検査に例えて説明します。視力検査では最初1.0あたりの図形(よく見かけるアルファベットのCに似ている図形はランドルト環と呼ばれます)を答えてもらい、見えているようだったらもっと小さいランドルト環、見えていないようだったらもっと大きいランドルト環を指していき、最終的に見える限界のところがその人の視力として測定されます。

<図表1>視力検査のランドルト環の図

視力検査のランドルト環の図

視力検査でしたら、一定の大きさのランドルト環の向きが見えていればこの視力、ということが決まっていますが、能力適性検査はそんな単純なものではありません。ある難易度の問題に正解したからといって同じくらいの難易度の別の問題に正解できるとは限らない、ということは直感的にもご理解いただけるかと思います。

では能力適性検査の適応型出題はどういう仕組みになっているのでしょうか。弊社の適応型出題は下図のように大きく4つのステップに分けられます。

<図表2>適応型出題の概念フロー図

適応型出題の概念フロー図

①初期推定:さまざまな難易度の問題を数問解いてもらい、その正解状況によって能力レベルをおおまかに推定します
②出題:受検者の能力レベルに合った難易度の問題を項目プールからピックアップして出題します
③推定:出題された問題への回答を採点し、能力レベルを再推定し、②に戻ります
④検査終了:③の推定結果が信頼できるものと判定したら検査を終了します

一見シンプルな仕組みですが、これはあくまで概要で、実際には最初の数問で能力レベルをある程度推定するためにどんな問題を解いてもらえばよいか、とか似たような問題が連続して出題されないようにするにはどうすればよいかといった、さまざまな工夫もなされています。

この仕組みで最も重要なのは、良質な問題項目を大量に蓄積した項目プールです。項目プールは一度作ったら終わりではありません。新しく作成して項目分析を終え、良質であることが確認できた問題を追加することで常に項目プールの拡充をはかる必要があります。また追加するばかりではなく、特性が変わっていないか、時代の変化にともなって内容が陳腐化していないか、対策本やインターネット上に漏洩していないかなどを確認し、場合によっては取り下げることも必要です。

適応型出題のメリット 回答負荷の軽減

出題する問題が固定されている固定型出題と、適応型出題を比較した際の適応型出題の最大のメリットは、全体として測定効率が上がるということです。受検者にとっては解く問題が少なくて済み、それにともなって検査時間も短縮されます。

どうしてこの違いが生まれるのかを説明します。

能力適性検査は幅広い能力レベルの方が受検されます。易しすぎて平均レベル以上の方が全員正解してしまうような問題ばかりでは差がつきませんし、難しすぎても困ります。つまり易しい問題から難しい問題まで幅広く取りそろえる必要があります。

適応型でない、全員が同じ問題冊子を解くテストを視力検査で例えると、一番大きいランドルト環から一番小さなランドルト環まで全部について「どちらに向いていますか?」と尋ねるようなものです。

<図表3>固定型出題のイメージ

固定型出題のイメージ

一方、適応型では最初の数問は能力レベルの推定のためにある程度幅広い難易度の問題を出しますが、そのあとはその人の能力レベルに応じた問題が出題されます。本人の能力レベルからかけ離れた難易度の問題を出題しなくなるため、項目数が少なくても精度の高い推定ができる、というわけです。

<図表4>適応型出題のイメージ

適応型出題のイメージ

この結果、SPI3でも固定型出題のペーパーテスティング方式では能力検査は70分かかりますが、適応型出題のテストセンター方式ではおおむね30分以内で終わるようになりました。

まとめ

前編後編の2回にわたって、テストの公平性と、適応型出題について説明しました。ここで全体をまとめておきます。

一斉に同じ問題冊子を解く一般的な学力テスト(日本的テスト文化)を念頭において、「人によって違う問題が出題されるのは不公平だ」と感じる方がいらっしゃいます。しかし採用場面で用いられることが多い能力適性検査では、この「全員が同時に受ける」という前提が成り立たないため、全員に同じ問題を出してしまうのは逆に不公平になります。

公平な測定をするためには、使っている物差しが同じであることが必要です。一斉に実施しないテストの場合は、このテスト同士が同じ物差しであるということが保証されなければなりません。ここでテスト理論が登場します。

テスト理論の1つ、項目反応理論を使うと、出題される問題が異なっても同じ物差しと考えることができます。つまり出題される問題が異なっても公平性は担保されているのです。ただし単に理論を適用するだけで担保されるわけではなく、そのための大前提として、問題項目が適切に管理運用されている必要があります。

項目反応理論を使うことで公平性が担保されるだけでなく、受検者それぞれの能力レベルに応じた問題が出題される適応型出題も可能になります。適応型出題の大きなメリットは、出題する問題数が減り、検査時間も短くなることです。実際、SPI3ではペーパーテスティング方式で70分だった検査時間が適応型出題により半分以下に減っています。

このように、テスト理論に基づき、適切に管理運用されたテストであれば、人によって違う問題が出題されたとしても公平性は担保されており、さらに適応型出題であれば検査時間も短くて済む、というわけです。

参考文献

1 荒井克弘・倉元直樹(編著), 全国学力調査日米比較研究 第2章近年の学力低下論争の経緯と問題点, 金子書房, 2008
2 光永悠彦, テストは何を測るのか~項目反応理論の考え方, ナカニシヤ出版, 2017

  • SHARE
  • メール
  • リンクをコピー リンクをコピー
    コピーしました
  • Facebook
  • LINE
  • X

関連する記事