研究レポート

1on1ミーティング時のメモからメンバーの不調を検知できるか

自然言語処理モデルを活用した検証

公開日
更新日
自然言語処理モデルを活用した検証

人的資本の重視や人材不足を背景に、職場における従業員のメンタリティを支援することがますます重要になってきています。本研究では、最近多くの企業で導入されている1on1ミーティングにおけるデータに着目し、上司が1on1ミーティングのなかで記録したメモ(以下、1on1メモ)から、自然言語処理モデルを活用することにより面談相手であるメンバーのメンタリティ状態を推定できないか検証しました。

本レポートは、2023年度の人工知能学会全国大会での発表(宇野・仲間 2023)をもとに、1on1メモを用いたメンタリティの好不調推定を検証した結果についてご紹介します。技術的な詳細など、詳しくは発表論文「1on1ミーティング時のメモを用いたワークメンタリティの好不調の推定」をご覧ください。

はじめに

昨今の企業経営においては、ますます社員一人ひとりのメンタリティの好調度合い・不調度合いを把握し、適切にサポートすることが重要な人事課題になっています*1 。これに対する施策として、定期的なアンケート実施が有効ですが、高頻度の実施となると回答する社員の負荷が高くなってしまいます。かといって、頻度を下げすぎると、前回実施してから次に実施するまでのメンタリティの変化を把握することができないために、職場での対応が遅れてしまうといった懸念があります。そのため、社員の負荷を上げずに、アンケートを実施していない期間のメンタリティを把握できれば、実務上の価値が高いといえます。

そこで、この研究では昨今多くの企業で導入が進められている1on1ミーティングに着目しました。1on1ミーティングとは上司と直接の部下であるメンバーが週1回~月1回程度の頻度で定期的に対話をするものです(1on1ミーティングの導入の実態については、こちらの記事もご参照ください)。上司はメンバーから業務の話だけでなく、将来のキャリアの話やプライベートの話を聴くことが推奨されています。1on1ミーティングをサポートするサービスも増えてきており、そのなかで上司は自組織の複数メンバーと対話したメモ(以下、1on1メモ)を記録したり、人事へそのメモを共有したりといったことが一般的に行われています。これらのメモには上司が対話のなかから得たメンバーのメンタリティに関する情報が含まれていると考えられるため、メンバーのメンタリティを推定するうえで有用なデータだと考えました。

提案手法

検証には1on1の実施支援を目的に提供されているWEBサービス(INSIDES)上で、実際に上司が記録した1on1メモを使用しました。1on1メモには自分用のメモと人事等への共有用のメモがあり、今回は共有用のメモのみを使用しています。なお、予測対象となるメンバーのメンタリティについては、同サービス内に付帯する心理アンケート結果を使用しています。このアンケートで測定されているメンタリティは、仕事に向き合う心理状態を5段階で評価するものになっているため、特に職場でのサポートが必要と考えられる下位2段階を不調、その他を好調と定義しました。データ数は3186レコード(記録者数:854人)で内1345レコード(約42.2%)が不調のメンバーについて書かれたものです。

不調・好調のメンバーそれぞれについて上司が記録した1on1メモは図表1のようなものです。

<図表1>1on1メモの例

<図表1>1on1メモの例

※本レポートに掲載するメモは実際のメモではなく、実際のメモを参考に著者が作成したものです。

メモからメンタリティを予測するために、3つの機械学習モデルで検証を行いました。3つ目のモデルが最も高精度を期待できますが、文脈考慮の必要性や既成の一般的な感情分類モデルとの比較を行うために1と2でも検証を行いました。

1. Doc2Vecによりベクトル化したデータを学習したXGBoost(以下、D2V-xgb)
・Doc2Vec*2により各メモを300次元のベクトルに変換し、XGBoost*3で学習したモデル。文脈は考慮せず出現単語の特徴を捉える。

2. 感情分類BERTモデル(以下、BERT-sentiment)
・BERT*4の事前学習済みモデルをベースに、ポジティブ/ネガティブフラグのついた有価証券報告書データでファインチューニングされた既存の感情分類モデル。出現単語だけでなく、文脈も考慮する。

3. 1on1メモによりファインチューニングしたBERTモデル(以下、BERT-finetuned
・BERTの事前学習済みモデルをベースに、本研究で用意した1on1メモを用いてファインチューニングしたモデル。

検証結果

予測精度は図表2のとおりになりました。BERT-finetunedが最も高精度で、F1-Scoreは0.69です。その他のモデルと比較すると、精度に大きな差があります。このことから、1on1メモからメンタリティを予測する際には、出現単語だけなく文脈の考慮も必要であり、一般的な感情分類モデルには含まれない特徴も抽出する必要があると考察できます。

<図表2>3モデルの精度比較結果

<図表2>3モデルの精度比較結果

次にこの精度が人が1on1メモを見て予測したときのものとどのくらい差があるのかを検証するための実験を実施しました。この実験では、合計9人の被験者の協力を得て、200件のテストデータの1on1メモ一つひとつに不調か否かのラベル付けを依頼しています。被験者の内1名は研究に用いたWEBサービスのカスタマーサクセスのリーダーであり1on1に精通しているエキスパートです(図表3中のE1)。その他の被験者は非専門家であり(図表3中のS6、S7)、比較対象としてこれら非専門家の多数決によるアンサンブルも追加しています(図表3中のEnsemble)。

図表3は上位5位の結果です。その結果、BERT-finetunedはエキスパートと同等の精度であることが確認できました。

<図表3>人による推定精度との比較結果

<図表3>人による推定精度との比較結果

次に、BERT-finetuned、エキスパート、その他の被験者の判断の特徴を詳しく見てみましょう。図表4に正誤パターン別の1on1メモの例を示します。

<図表4>各正誤パターン別の1on1メモの例

<図表4>各正誤パターン別の1on1メモの例

パターン1はBERT-finetuned、エキスパート、その他の被験者すべてで不調と推定できた1on1メモを参考に著者が作成した例です。このパターンの1on1メモでは「気が重い」など明らかに不調を示唆する表現が含まれているのが分かります。

パターン2は、BERT-finetuned、エキスパートが正解し、その他の被験者のほとんど(7/8)が不正解だったものを参考に著者が作成した例です。このパターンは「慣れてきている」「問題ない様子」「困っている様子も一切ない」など不調でないことを示唆する表現が多く、一見すると不調でないように見えるものです。エキスパートに正解できた理由をインタビューしたところ、「書き方として、メンバーが本当は不調であるにもかかわらず、上司が“特に問題ない”と言っているように感じた」といった回答が得られました。BERT-finetunedが不調であると判定できた理由を、SHAP*5 を用いた可視化により調べました。その結果、「慣れ」「問題ない」といった表現については好調推定に寄与しているのに対し、「苦戦」「業務負荷」などの表現については不調推定に寄与していることが分かりました。このことから、たとえ「問題ない」などの好調を示唆する表現があったとしても、同時に不調を示唆する表現がある場合にはBERT-finetunedでは不調であることを見逃さなかったといえます。

一方で、パターン3はエキスパートのみが正解したものを参考に著者が作成した例です。このパターンではエキスパートは「“以前よりも”や“特段”といった表現からメンバーが上司に対して心配させないように大丈夫だと言っているように見えた」との理由で不調と判定しています。この点についてはパターン2と同様ですが、BERT-finetunedは不調と判定することができませんでした。この理由としてSHAPによる可視化から考察すると、このパターン3の文章ではパターン2とは違い不調を示唆する表現がほとんど含まれないことが考えられます。このようなパターンの文章は多くはないため、この傾向を学習できなかったのでしょう。

おわりに

本研究では、上司の記録した1on1メモを用いてメンバーのメンタリティを推定する機械学習モデルによる推定精度を検証しました。検証の結果、ファインチューニングしたBERTモデルは、1on1に精通するエキスパートと同等の精度であることを確認することができました。つまり、1on1メモからそのメモが書かれた付近のメンバーの好不調を推定し得るといえます。これにより、大量の1on1データが蓄積しすべてに目を通すことが困難な環境においても、特に不調が疑われるメンバーを検知できることが期待されます。

本研究のさらなる発展として、将来のメンタリティ予測が挙げられます。今回の検証では1on1メモが書かれた付近のメンタリティを推定対象としましたが、これを半年後など将来に設定することで、1on1メモが記録された当時は不調でなくとも将来的に不調になることを予測できる可能性があります。これにより、不調になってからではなく、早めに不調になりそうな兆候を検知しサポートできるため、より実務的な価値が高いものになると考えています。

参考文献

*1 Cropanzano, R., Dasborough, M. T., & Weiss, H. M. (2017). Affective events and the development of leader-member exchange. Academy of Management Review, 42(2), 233-258.
Weiss, H. M., & Cropanzano, R. (1996). Affective events theory. Research in organizational behavior, 18(1), 1-74.

*2 Le, Q., & Mikolov, T. (2014). Distributed representations of sentences and documents. In International conference on machine learning (pp. 1188-1196). PMLR.

*3 Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining (pp. 785-794).

*4 Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

*5 Lundberg, S. M., & Lee, S. I. (2017). A unified approach to interpreting model predictions Advances in neural information processing systems, 30.

  • SHARE
  • メール
  • リンクをコピー リンクをコピー
    コピーしました
  • Facebook
  • LINE
  • X

関連する記事