【テキストマイニング研究室:第8回】 「気になる」と「その気になる」はどう違う?: “熟語”について


【テキストマイニング研究室:第8回】 「気になる」と「その気になる」はどう違う?: “熟語”について

【テキストマイニング研究室】では、見える化エンジンのコア技術であるテキストマイニングに関連した技術について詳しく解説していきます。

▼これまでのテキストマイニング研究室はこちら
https://www.mieruka-engine.com/media/feature/textmining/

今回は、「熟語」 についてご紹介します。

第8回のテーマ…“熟語”

第7回では、助動詞についてご紹介しました。

「~てしまった」=「て」+「しまう」+「た」

というように、いくつかの単語が組み合わさって、それぞれの意味とは違ったひとつの単語になることがあると言いました。


これは助動詞だけでなく、どんな品詞にもある現象です。

たとえば『助詞相当語』には、

  • ~について=に+つく+て
  • ~に対して=に+対する+て
  • ~において=に+おく+て   etc.

というように、私たちが普通に使っている言い回しがたくさんあります。

『相当語』という呼び方は、助詞や助動詞のような機能語(意味というより”働き”が主体の語)の場合の呼び名です。


この他にも、自立語(名詞、動詞、形容詞)が組み合わさって別の単語ができる場合は『熟語』と呼ばれています。

例:花束:花(名詞)+束(名詞)、激流:激しい(形容詞)+流れ(名詞)


今回は見える化エンジンに搭載している自然言語処理エンジン「Waters」で熟語をどう扱っているかという話です。

熟語解析のむずかしさ:「気になる」と「その気になる」 

熟語と言っても、クイズや漢字検定に出るような四字熟語、故事成語といったものは、丸ごと単語として登録しておくだけで、何の問題もなく解析できます。

それらは名詞としてしっかりとまとまっているので、間違えようがないからです。


しかし、熟語の要素に動詞や形容詞があると、解析は格段にむずかしくなります。


たとえば『気がかりである』という意味の「気になる」という熟語を考えてみましょう。

このくらいよく使う言葉であれば1単語として辞書登録しておけばいいじゃないか、と思われるかもしれませんが、そうは行かないのです。


熟語の例文(1)(2)

(1)は熟語の「気になる」ですが、(2)は「気」「なる」と分けることができ、どちらも元々の意味で使われている言い回しです。

もしこの点を気にせず、「気になる」が一つの単語として辞書やプログラムに登録されていると、形態素解析の段階でどちらの「気になる」なのか区別ができなくなります。


自然言語処理エンジンで、どう解析しているか 

自然言語処理エンジン「Waters」では、形態素解析・文法的な係り受け解析をしたあとで、熟語の言い回しか、そうでないかを、周辺の係り受け(文脈)によって判定しています。


今回の「気になる」のような例では、

  • (1)は「気」を直接修飾する語がないので、熟語と判断
  • (2)は「行く-気」という修飾関係があるので、もともとの意味・用法で使われている「気」と判断

というプロセスを経て、熟語とそうでない言い回しとを区別しています。

自然言語処理エンジン「Waters」での解析例

まとめ

私たちはあまり意識しないで熟語を使っていますが、この例のように、熟語として存在するものと、それを構成する単語が持つもともとの意味で使う言い回しがけっこうあるのです。単純に辞書登録すれば済む、というものではありません。

助詞や助動詞の相当語もまったく同じで、単語の並びだけで判断すると解析を間違うことがよくあります。


このように、発言の意味や文脈をとらえる上で、熟語や相当語の判定は、形態素解析だけではうまくいかないことがよくあります。

「意味をとらえるには構文解析が必要」という理由がここにもあります。


---------
担当:住谷・高井・小山