ビッグデータ時代の情報抽出技術大量の情報から有益な情報を可視化する

人材の評価・可視化

公開日：2019/05/27
更新日：2024/03/22

SHARE
- Eメール
- リンクをコピー
  コピーしました
- Facebook
- LINE
- X

ここ数年、「ビッグデータ」が実際にさまざまな場面で活用されてきている。とはいえ、その情報抽出技術がまだ進化の途中であることも確かだ。話し言葉や書き言葉から、人の暗黙知や感性といった可視化が難しい情報の抽出と可視化に取り組む西原陽子氏に、さまざまな研究事例について伺った。

目次: ネットいじめの隠語をどうやったら検出できるのか; アイディアを磨くには周囲が欠点も具体的に指摘することが重要; 最初にスモールデータをよく読むことが情報抽出技術の基本

ネットいじめの隠語をどうやったら検出できるのか

── 先生はどのような研究をしているのですか？

一言で言えば、「情報抽出技術」の研究をしています。人間の活動に関わる大量の情報のなかから、人間の活動にとって有益な情報を抽出し、可視化する技術です。

扱う情報はさまざまです。最近、特に注目しているのは、インターネット・SNS・メールなどの情報で、なかでも子どもの「ネットいじめ」を減らすことについて研究しています。ネットいじめの典型的なパターンには、学校のクラスSNSから特定の子を省き、その子の悪口を皆で書き合うというものが多いと思われます。ただ、第三者に見つかっても問題がないように、子どもたちがあからさまな悪口を書き込むことは少ないと考えられます。その代わりに、彼らが使うのが「隠語」です。例えば、「市かと（シカト）」「場仮（バカ）」「安保（アホ）」のような言い換え表現や出席番号などを使い、「3市かと」などと書くのです。私はそうした隠語をどうしたら検出できるかを研究しています。

また、子どもが主な対象となるものでいえば、「痛みのインタフェース」研究も進めています。「実際の痛み」と「痛みの表現」の関係は、人によって少しずつ異なります。自分のズキズキと誰かのズキズキでは、意味が多少違うと考えられます。特に子どもは、痛みのオノマトペを使うことに慣れていない場合があります。ですから、怪我をしたり急病を患ったりした子どもが、保健室の先生に「どういう痛さ？　ズキズキ？　シクシク？　チクチクかな？」と問われて、「ズキズキ」と答えたとしても、先生がその痛みを的確に捉えているとは限りません。私たちは、こうした痛みの表現を誰もが分かる指標に落とすため、スマートフォンを指で押す位置・動き・深さを、痛みのオノマトペと対応づけるインタフェースを研究しています。このインタフェースが完成したら、医師の皆さんは、子どもはもちろん、方言を話す高齢者や日本語を話せない外国人旅行者の方々などの痛みもより正確に理解できるようになるはずです。さらに、大怪我をすると、私たちは「痛い」しか言えない状態になることが珍しくありませんが、そのときにも役立つ可能性があります。

他に、異文化コミュニケーションに関する研究もいくつかあります。日本にやってくる外国人留学生のなかには、「日本のアニメやマンガが好き」という若者がかなり多くいます。そこで、マンガを通して、彼らが日本語をより効率的に学べる日本語学習サポートシステムを作っています。それから、共同で研究をしている人のなかに、日本人がより流暢な英語を話せるようになるよう、「空耳」を活用した練習法を開発している学生がいます。例えば、「野菜ジュース」を英語っぽく「ヤスアイジュース」と言うと、アメリカ人やカナダ人には“Yes, I do.”に聞こえるかもしれません。こうした空耳のレパートリーを増やしていけば、新たな英語学習法を確立できると考えています。

▲目次に戻る ▲目次に戻る

アイディアを磨くには周囲が欠点も具体的に指摘することが重要

── いずれも幅広い課題解決に役立ちそうな研究ですが、ビジネスや組織に関連したものはありますか？

以前、上司と部下の面接でのやり取りから、2人の関係性を自動的に評価するシステムを構築したことがあります。このシステムでは、「です」「ます」「ですよ」「ですよね」「だ」「である」「だよ」「だよね」といった会話の末尾のモダリティに注目し、その特徴から社会的距離を計測しました。例えば、「ね」が多いコミュニケーションは、上司と部下の仲が良い、などの知見をいくつもシステムに組み込んでいったのです。言語処理の技術を使えば、こうしたシステムも構築可能です。

また、「ディスカッションのなかでアイディアを磨くコツ」を分析したこともあります。この研究から分かったのは、「アイディアの発表者に対する周囲のコメントが鍵になる」ということです。単純に「いいね」といった評価を下すだけでは、アイディアを磨くことはできません。そうではなくて、周囲がアイディアの優れた点をよく認めた上で、同時に欠点も具体的に指摘することが大切です。それに対して、発表者が「こういう風にしたらどうでしょうか？」と修正案を出していく。その繰り返しのなかで、アイディアは少しずつ練り上げられていくのです。

さらに、これから研究したいのは、「チャットボット（テキストや音声を通じて、会話を自動的に行うロボットプログラム）を使った面接」です。企業の採用面接や上司・部下の面談などの業務負担を減らすため、チャットボット面接を実現できないかと考えています。そのときに問題となるのは、人間による面接とロボットによる面接では、面接者の受け答えがどのように変わってくるかということです。これがよく分からない限り、チャットボット面接を導入することは困難でしょう。その辺りの研究を進めたいと考えています。

▲目次に戻る ▲目次に戻る

最初にスモールデータをよく読むことが情報抽出技術の基本

── さまざまなデータを幅広く扱っているようですが、そのような研究をうまく進めるコツは何ですか？

インターネット上の情報は膨大で、例えば、ネットいじめの研究の際には、私はコンピュータに約1000万文の情報を与えました。これだけのビッグデータを扱えるようになったのは、私のような情報抽出技術の研究者にとって、間違いなく良いことです。

ただ、コンピュータにも弱点があります。それは「理由づけが難しい」ことです。コンピュータ自身は、なぜそうなったのかを説明することが苦手です。そこで私が大事にしているのは、最初にスモールデータを分析して、「このデータにはこのような傾向がある」という当たりをつけ、モデル仮説を組み立ててから、ビッグデータの分析に入ることです。最初に自分で仮説を立ててから分析を進めるのです。これは通常の情報システム構築やビッグデータ解析のときも、同じように重要なステップだと考えています。

先に紹介した上司・部下間の関係性を評価するシステムでいえば、まずは私が上司・部下の面接の会話データをいくつか読み、どの内容は仲が良く、どれはそうでないかをある程度見極め、その理由を推測し、知見を蓄積してからビッグデータの分析を進めました。こうやって最初にスモールデータをよく読むことが、情報抽出技術の基本です。ここで手を抜くと、良いモデル、良いシステムは得られないと考えています。

▲目次に戻る ▲目次に戻る

【text：米川青馬】

※本稿は、弊社機関誌 RMS Message vol.53 展望「大量の情報から有益な情報を可視化する」より転載・一部修正したものである。
RMS Messageのバックナンバーはこちら。

※記事の内容および所属等は取材時点のものとなります。

PROFILE
西原陽子（にしはらようこ）氏
立命館大学　情報理工学部

2007年大阪大学大学院博士課程後期課程修了。日本学術振興会・特別研究員、東京大学大学院工学系研究科・講師などを経て、2012年より現職。研究分野はウェブ情報学・サービス情報学、感性情報学、ヒューマンインタフェース・インタラクション。著書に『情報アクセス技術入門』（共著・森北出版）などがある。