人事データ活用入門 第4回 「回帰分析」で因果関係を分析する

執筆者情報
HR Analytics & Technology Lab
所長
入江 崇介

前回は、2つの変数の関係性を表す指標である相関係数についてご紹介しました(『データの関係性を表せる「相関係数」と2つの落とし穴』)。
しかし、実際の人事実務の場面では、「課長昇進後のパフォーマンスは、昇進前の主任時のパフォーマンスでどの程度予測できるのか?」のように、「因果関係」に基づく「予測」に関心があることも多いと思います。
今回は、このような場面で利用する、「回帰分析」をご紹介します。


「相関分析」と「回帰分析」は何が違うのか

「主任時のパフォーマンス」と「課長昇進後のパフォーマンス」という2つの変数を例に相関分析と回帰分析の違いを模式図で示すと、図表1のようになります。

2つの変数の関連を分析する点においては、相関分析と回帰分析は同じ分析のように見えます。では、両者の違いはどこにあるのでしょうか? それは、図表1の「矢印の向き」です。

相関分析では、2つの変数の間の関係は「双方向」という前提を置いています。一方、回帰分析では、「主任時のパフォーマンスが、課長昇進後のパフォーマンスに影響している」とあるように「一方向」の関係を前提としています。

このような特徴と関連して、回帰分析では、予測に用いる変数(矢印の出発点にある変数:図表1では「主任時のパフォーマンス」)と、予測の対象となる変数(矢印の終着点にある変数:図表1では「課長昇進後のパフォーマンス」)には、それぞれ異なった名称が用いられます。
具体的には図表2のような、
 ・予測に用いる変数=独立変数、あるいは説明変数(以下「独立変数」で統一)
 ・予測の対象となる変数=従属変数、あるいは目的変数(以下「従属変数」で統一)
という名称です。

回帰分析のイメージをつかむ

図表3のように、回帰分析は、独立変数が1つの場合は「単回帰分析」、2つ以上の場合は「重回帰分析」といいます。今回は基本的な考え方をご理解いただくことを目的に、より単純な「単回帰分析」を例に詳しく説明をしていきます。

回帰分析は、シンプルにいうと、「得られたデータをもとに、『従属変数=定数+係数×独立変数(Y = a + bX)』という一次式を求めること」です。図表4でいうと、「一次式を求めること = 黄色い直線を求めること」です。

分析結果として着目するのは、まず「どのような直線であるかを表す数値」の、
・直線のかたむき=回帰係数
 ・直線がどこを通るかを示すための「直線とy軸の交点」=切片
です。
また、そもそも「その直線は、どの程度データにあてはまっているのか」という結果の信憑性を示す、相関係数、決定係数、分散比です。
これらの数値について詳しく説明します。

回帰分析の結果を読み取る

回帰分析は、Excelの分析ツールで実施することができます。ここまで同様、主任時のパフォーマンスを独立変数とし、課長昇進後のパフォーマンスを従属変数とした場合に、実データをもとに分析した結果は、図表5のようになります。

今回は、図表5のなかの、
・A:重相関R=0.31
・B:重決定R2=0.10
・C:有意F = 0.00
・D:切片=5.69
・E:主任時のパフォーマンスの「係数」=0.38
の意味について説明をします。

まず、Excelでは略称で表記されている言葉があるので、それぞれの正式名称を示すと、
 ・A:重相関R = 重相関係数R(相関係数R)
 ・B:重決定R2 = 重決定係数R2乗値(決定係数R2乗値)
 ・C:有意F = F検定の有意確率p値
 ・E:係数 = 偏回帰係数(回帰係数)
となります。

また、Excelの分析結果は「重回帰分析」を前提とした表記になっていますが、今回のような単回帰分析の場合は、それぞれ「相関係数R」「決定係数R2乗値」「回帰係数」と表記します。

では、それらの係数はどのような意味を持っているのでしょうか。

まず、「E:回帰係数」は、図表4の直線の「かたむき」を示します。よって、0.38という数値は、「主任時のパフォーマンス(人事考課の複数年平均)が1段階高くなると、課長昇進後のパフォーマンスが0.38段階高くなる」と解釈します。

「D:切片」は、図表4の直線が、x=0のときにy軸と交わる点です。よって、「仮に主任時のパフォーマンス段階が0だった場合の、課長昇進後のパフォーマンス」を示します。

また、「C:F検定の有意確率p値」は、この分析結果の確からしさを表す指標です。図表5の「観測された分散比」に対するF検定という統計的検定の結果です。一般的には、この値が0.05を下回れば、分析結果が確からしいと解釈します。

続いて、「B:決定係数R2乗値」ですが、「独立変数の変動によって、従属変数の変動がどの程度説明できるかの割合」を示す指標です。値は0〜1の間の値を取り、1に近いほど説明できる割合が高いことを意味します。よって、決定係数が1の場合は、すべてのデータが回帰直線上に並んでいる状態で、「主任時のパフォーマンス段階の違いによって、課長昇進後のパフォーマンスの違いが完全に説明できている状態」になります。Cohen(1988)で提唱されている基準を目安にすると、決定係数の値が0.02を下回っている場合、分析結果は有効でないと考えることができます。*
*Cohen, J. (1988). Statistical power analysis for the behavioral sciences. 2nd ed. Hillsdale, NJ: Lawrence Erlbaum Associates.

そして、「相関係数R」は、「決定係数R2乗値」の平方根です。ここでの例のような単回帰分析では、この値は2つの変数の間の相関係数に等しくなります。

回帰分析を用いるメリット

相関分析では、2つの変数の「関係性の強さ」が分かりました。回帰分析を行うことで、関係性にとどまらず、「2つの変数の関係は、どのような直線式で表せるのか」が分かるのです。

つまり、切片と回帰係数を用いることによって、
・課長昇進後のパフォーマンス段階=5.69(切片) + 0.38×主任時のパフォーマンス
という予測式によって、「主任時のパフォーマンスから、課長昇進後のパフォーマンスを予測する」ことができるようになります。

たとえば、今回は対象者がいない「主任時のパフォーマンスが12段階」という人がいた場合、課長昇進後のパフォーマンスは、
 ・5.69 段階+ 12段階×0.38 = 10.25段階
になると予測ができます。このような「予測」ができることが、回帰分析のメリットです。

因果関係を考察する際の留意点

回帰分析は、ある変数によって、他方の変数を予測するために用いることができる方法です。したがって、因果関係の有無にかかわらず、「ある変数から、他方の変数を予測する」場面で用いることができます。それゆえ、回帰分析だけでは、因果関係の分析を行ったことにはなりません。
では、「因果関係」を分析するためにはどのような条件が必要になるのでしょうか。厳密な因果関係を分析するためには、留意すべき点がさまざまあるのですが、ここでは最低限押さえておきたい2つのポイントを挙げます。

1つ目のポイントは、「論理的に、原因と結果とみなせる」ということです。「部長昇進後のパフォーマンスから、課長昇進後のパフォーマンスを予測する」という問いを立てた場合、一般的には、「課長になった後、部長になる」ので、原因と結果が逆転してしまい、正しい因果関係を想定しているとはいえません。
また、「課長昇進前に行った、適性検査とアセスメントセンターの得点に関係性があるか?」という問いを立てた場合、どちらが原因でどちらが結果かがはっきりしないため、「相関」の分析の対象にはなりますが、「因果関係」の分析の対象にはなりません。このように、「相関か、因果か」ということと、「因果の方向性は適切か」ということを常に注意する必要があります。

2つ目のポイントは、「データが、原因と結果という時系列のデータになっている」ことです。例えば、ある1つの時点で取った従業員満足度調査の結果を用いて、「金銭的報酬への満足度は、仕事満足度を高めているのか」という分析を行ったとします。問いとしては、因果関係の検証と考えることができます。しかし、「同時」に取ったデータである場合、原因と結果という時系列に沿ったデータが取れているとはいえません。よって、「原因と結果」という検証ができているとはいえないのです。厳密に時系列に沿ったデータを取得するのが難しい場面は多々あるかと思いますが、このようなデータの時系列にも合わせて注意を払うことが必要です。

より複雑なモデルの分析に用いる重回帰分析

図表5で、重決定係数R2乗値の値が0.10となっていました。このことは、「課長昇進後のパフォーマンスの高低のうち、主任時のパフォーマンスの高低で予測できる割合は10%」ということを意味しています。この割合は、十分に高いものではないと感じられるのではないでしょうか。よって、昇進後のパフォーマンスを予測するためには、他にもさまざまな要因を考慮に入れ、データを収集し、分析を行ったほうが有効と考えるのは自然な発想です。その場合、独立変数として、他の変数を追加して回帰分析を行うことになります。
次回は、上記のような「独立変数が2つ以上ある場合」に用いる、「重回帰分析」の活用法についてご紹介します。

バックナンバー

人事データ活用入門 第1回
人事ビッグデータとは何モノなのか?


人事データ活用入門 第2回
人事データに潜む2つの罠


人事データ活用入門 第3回
データの関係性を表せる「相関係数」と2つの落とし穴




記事のキーワード検索
Page Top