【テキストマイニング研究室:第2回】 テキストマイニングの基礎技術 “構文解析” とは?


【テキストマイニング研究室:第2回】 テキストマイニングの基礎技術 “構文解析” とは?

【テキストマイニング研究室】では、見える化エンジンのコア技術であるテキストマイニングに関連した技術について詳しく解説していきます。

第1回では、テキストマイニングの第一歩目、"形態素解析"について解説しました。

▼第1回 形態素解析に関する記事はこちら
 https://note.com/mierukaengine/n/n8e3e7a05e23e

そして今回は、テキストマイニングの2番目の基礎技術である “構文解析” をご紹介します。

第2回のテーマ… “構文解析”


構文解析とは、ある文章の中で単語や字句で構成される文を、文法やルールを用いて解析し、解釈することで、文の意味や構造を明らかにすることです。
形態素解析で得られた単語のランキングによって、トピックの動向をとらえることができます。しかし、そのトピックについてどのような意見があるのかはわかりません。
「何が-どうした(どうだ)」ということをとらえるためには、さらに構文解析(係り受け解析)をする必要があります。
中学の国語で習った、連体修飾句、連用修飾句とか、主語・述語という言葉をおぼえていますか?
コンピュータによる構文解析も、そういう基本的な文法に則って処理します。

単語の羅列から一本の木を作る


日本語の文には、「私-は」「行き-ます」というように、自立語(=名詞・動詞・形容詞)と付属語(=助詞・助動詞)からなる『文節』という単位があります。
この文節が組み合わさって修飾→被修飾の関係(係り受け)ができます。
小さな係り受けから、広い範囲の係り受けにまとめ上げていくと、どんなに長い文でも、最後の述語文節を根っことした一本ののようになります。

構文解析のプロセスは?


単語から係り受けになり、構文木にまとまっていくプロセスを下の図でご覧下さい。
(単語)から、枝(係り受け)をたどって、木(構文木)にまとまっていくイメージです。
(「木」といっても、根っこを上にした『逆転木』です)

例文: 「見える化エンジン」が、テキストマイニングのSaaS市場において10年連続でシェアNo.1を達成!!

連体修飾でまとめる例


連用修飾でまとめる例


前の処理によってまとまっていた文のかたまりを緑色、今回の処理によって新たにまとまった文のかたまりをオレンジ色で囲んだ。



構文解析は何に効くの?


こうすると何がいいのかと言えば、上の図からもわかるように、

  • 【見える化エンジン】-【達成】
  • 【シェアNo.1】-【達成】


など、文を構成する『何が-どうした(どうだ)』『何を-どうした』の単位が簡単に取り出せることです。
ちなみに、相反する意見が一つになった
デザインは好きだが使い勝手はあまり良くない
という文は、こんな木構造になります。

ここから、単語ランキングだけでは見えなかった、

  • 【デザイン】-【好き】
  • 【使い勝手】―【良い《否定》】

という『意見』が見えるようになります。

だから…
係り受けを集計・分析することで、トピックだけでなく、それに関する『意見』まで「見える化」することができるのです。


-形態素解析によって『トピック』を理解し、構文解析から『意見』を分析する-

このように、構文解析は奥が深い一方で、意見や感情も可視化することができます。
「見える化エンジン」も、このような高度な自然言語処理をフルに活用して、正しく声の可視化をすることを目指しています。

---------
担当:住谷・高井・小山