研究レポート

360度評価における不適切コメントの判定を題材として

テキスト分類タスクにおける生成AIの活用可能性

公開日
更新日
テキスト分類タスクにおける生成AIの活用可能性

企業での人材育成の重要性が高まるなか、360度評価が多くの企業で導入されています。本研究では、運用上の負荷を下げることを目的として、360度評価における不適切コメントを自動判定するモデルを構築・検証し、さらに本タスクの課題となっていた不均等データの学習において生成AIの活用可能性を検証しました。

本レポートは、2024年度の人工知能学会全国大会での発表(宇野・仲間、2024)をもとに執筆しています。技術的な詳細など、詳しくは発表論文「360度評価における不適切コメントの自動判定とテキスト生成モデルによる学習データ拡張効果の検証」 をご覧ください。

執筆者情報

https://www.recruit-ms.co.jp/assets/images/cms/authors/upload/3f67c0f783214d71a03078023e73bb1b/3ebeffc1d6234081bacb58b489454da7/2103081224_2941.jpg

コーポレート統括部
ITシステムマネジメント部
HRテクノロジーグループ
エンジニア

宇野 渉(うの わたる)
プロフィールを⾒る
https://www.recruit-ms.co.jp/assets/images/cms/authors/upload/3f67c0f783214d71a03078023e73bb1b/8053c5a3461f42b1bde51aebb13d2108/nakama.webp

技術開発統括部
研究本部
組織行動研究所
主任研究員

仲間 大輔(なかま だいすけ)
プロフィールを⾒る

はじめに

社員の能力開発を目的とした360度評価が多くの企業で導入されています。360度評価とは、上司・同僚・部下、他部署の関係者など多面的な相手から、被評価者についての評価を行う手法です。一般的に、360度評価は被評価者のアセスメントだけでなく、被評価者の能力開発も目的としているため、各評価項目得点だけでなく、評価者が被評価者の素晴らしい点や課題について自由に記載したコメント(以下、フィードバックコメント)についても被評価者本人にフィードバックされます。こうしたフィードバックコメントにより、被評価者が評価項目の得点だけでは気づけない、具体的な気づきを得ることが期待できます。

しかし、フィードバックコメントのなかには、被評価者にとって必要以上に攻撃的で誹謗中傷ともとれるコメント(以下、不適切コメント)が含まれる場合が稀にあります(例を図表1に示します)。フィードバックコメントが批判的な内容であること自体は、被評価者にとって自己を見直すきっかけとなり得るため有用なものといえますが、度を越えたコメントについては能力開発という360度評価の目的にそぐわず、職場の人間関係に大きな問題を与えるリスクがあります。そのため、多くの企業において被評価者に結果をフィードバックする前に、企業の人事担当者などがチェックすることが一般的であり、人事運用上の負荷が高くなるという問題があります。

<図表1>フィードバックコメントの例

フィードバックコメントの例

※本レポートに掲載するコメントはすべて、実際のコメントではなく、実際のコメントを参考に筆者が作成したものです。

関連研究

不適切コメントの自動判定に関連する研究として、SNS上のコメントなどWeb上のテキストを題材にしたものはいくつか存在します。松葉ら*1は掲示板の書き込みを題材に、TF-IDF値などの複数の特徴量をもとにサポートベクターマシン(機械学習モデルの一種)を用いた分類を提案し、石坂ら*2は悪口度に基づく判定手法を提案しています。これらの研究では共通して、文章中の品詞や単語に着目していますが、不適切でない意味合いで使用されている場合にも「不適切」と判定する可能性があり、精度に問題があると考えられます。

360度評価のコメントチェックの実際の運用でも、要注意ワードの有無での判定が行われますが、そうしたワードがポジティブな文脈で使用されることもあるため(図表2)、同様の問題が生じています。そうした背景から、全体の意図を考慮した判定モデルが必要とされる状況にあるといえます。

また、360度評価のフィードバックコメントに特有の問題として、不適切コメントの発生率が低く(本研究で使用したデータセットで、0.86%程度)、モデル学習が難しいというものもありました。よって、判定モデルの構築においては学習上の正例データとなる不適切コメントの収集も課題となっています。

<図表2>要注意ワードを含むフィードバックコメントの例

要注意ワードを含むフィードバックコメントの例

提案手法

本研究では、まず、要注意ワードマッチングのみに頼らない判定モデルを提案し、その精度を検証しました。さらに、生成AIを活用した学習データ拡張の効果も検証しました。

検証には360度評価サービスから収集した18万9676件のフィードバックコメントを使用しました。これらには、不適切かどうかのラベルが人の手により付けられており、全データの約0.86%(1,633件)が不適切コメントとしてラベル付けされた正例データとなっています。

まずベースラインとなる要注意ワードによる判定モデルに加えて(下記1)、2種類の判定モデルを作成し(下記2、3)、精度を比較しました。さらに、生成AIを使用して正例データを拡張した2つのモデルも作成し、精度向上の程度を検証しました。ここでは、2種類のプロンプトにより元の正例データと同量のデータを生成しました(下記4、5)。

下記は作成する5種類をまとめたものです。

ベースラインとなるモデル

1. WordsCheck:要注意ワードチェックによる判定モデル
予め人の手で作成した要注意ワードリストを用い、不適切コメントを判定するモデル。ワードリストには約700単語が含まれている。

学習モデル

2. BERT-WRIME:WRIMEでファインチューニングしたBERTモデル
WRIMEデータセット(Kajiwara 2021*3)で事前学習されたBERT(Devlin 2018*4)モデル。

3. BERT-RD:フィードバックコメントでファインチューニングしたBERTモデル
実際のフィードバックコメントを用いてBERTモデルをファインチューニングしたモデル。全データの2割をテストデータ、残りの8割を学習データとして使用し、学習データは不均等なためアンダーサンプリングを実施した。

生成AIによるデータ拡張を行った学習モデル

4. BERT-RD+DA1:趣旨のみを与える方法で生成したデータを加えたモデル
360度評価の状況説明のみのプロンプトで生成されたコメントをBERT-RDモデルに追加してファインチューニングしたモデル。

5. BERT-RD+DA2:要注意ワードを与える方法で生成したデータを加えたモデル
360度評価の状況説明に加えて、要注意ワードを含むように指示するプロンプトで生成されたコメントをBERT-RDモデルに追加してファインチューニングしたモデル。要注意ワードは毎回ランダムに1つ選択。

検証結果

判定モデルの精度比較結果については、テストデータを用いた結果を図表3に示します。

<図表3>精度比較結果

精度比較結果

まず、WordsCheckモデルと比較してBERT-WRIMEの精度は低下する一方で、BERT-RDはすべての指標で高精度を示しました。BERT-WRIMEの精度が低い原因は、内容自体は被評価者の気づきにもなるものであるが文章自体がネガティブなコメントを、誤って不適切と判定したためだと考えられます。逆に誤って不適切でないと判定した例では、文章自体はネガティブなものでないため正しく判定できなかったと考えられます(図表4に例を示しました)。この結果から、360度評価のコンテキストに特化した判定モデルが必要であることが分かります。

<図表4>BERT-WRIMEにおける誤判定コメントの例

BERT-WRIMEにおける誤判定コメントの例

次に、生成AIを使用したデータ拡張効果については、BERT-RD DA1は、BERT-RDよりも精度が低下するという結果になりました。これは、不適切でないフィードバックコメントが正例データとして生成されたため、ノイズが増加し精度が低下したと考えられます。一方、BERT-RD DA2は、BERT-RDよりも精度が向上し、最も高精度なモデルとなりました。要注意ワードを含めるという指示により、不適切コメントを正しく生成でき、実際の正例と類似するデータを拡張できたことが要因として考えられます。生成AIを活用した学習データ拡張は、プロンプトに使用する単語などある程度の制約を加えることで有用な手法となり得るといえます。

おわりに

本研究では、360度評価におけるフィードバックコメントの確認負荷の軽減を目的として、不適切コメントを判定する複数のモデルを構築し、その精度を比較しました。精度検証の結果、一般的に用いられる要注意ワードの含有有無による判定と比較して、実データを用いてファインチューニングしたモデルが大幅に精度向上することを確認しました。さらに、正例データの収集という課題に対して、生成AIを用いたデータ拡張を提案し、判定精度向上の効果を検証しました。コメント作成の趣旨だけでなく要注意ワードを含むように制約を与えたプロンプトによる生成データを加えて学習することで、判定精度が向上することを確認しました。

今後の展望として、今回のデータ拡張手法ではシンプルな2通りのプロンプトを使用しましたが、プロンプトや生成時のパラメータを調整することで、さらにバリエーションに富んだ正例データを生成し、精度を向上させることができる可能性があります。今後もこれらの方法を発展させ、より高精度な不適切コメント判定モデルの構築を目指します。

参考文献

*1 松葉達明ら. 学校非公式サイトにおける有害情報検出. 電子情報通信学会技術研究報告. 109(142), 2009

*2 石坂達也, 山本和英. Web 上の誹謗中傷を表す文の自動検出. 言語処理学会第 17 回年次大会.2011

*3 Kajiwara, Tomoyuki et al. WRIME: A new dataset for emotional intensity estimation with subjective and objective annotations. In: Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021

*4 Devlin, Jacob et al. "BERT: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805, 2018

  • SHARE
  • メール
  • リンクをコピー リンクをコピー
    コピーしました
  • Facebook
  • LINE
  • X

関連する記事