【テキストマイニング研究室:第4回】 “同義語“、“類義語”とは?

【テキストマイニング研究室】では、見える化エンジンのコア技術であるテキストマイニングに関連した技術について詳しく解説していきます。
これまでテキストマイニングの基礎技術として、第1回形態素解析、第2回構文解析、第3回品詞について解説しました。
▼これまでのテキストマイニング研究室はこちら
https://note.com/mierukaengine/m/mb715c8c30ba3
今回は、“同義語“、“類義語” についてご紹介します。
最新技術を学びたい人はぜひ最後までお読みください。
第4回のテーマ…“同義語“、“類義語”
前回、「品詞は単語の文法的なグループ分け」という話をしました。
今回は、単語の意味的なグループ分けである“類義語”についての話です。
類義語とは?…似たような意味を別の言葉で
私たちは同じことを言うのにも言葉の使い分けをすることがあります。
例えば、「メシを食う」「ごはんを食べる」「お食事をいただく」など、相手や場面によってさまざまに言葉を選びますよね。
しかしニュアンスを抜きにすれば、これらは同じ出来事を指していると言えるでしょう。
このような、「メシ、ごはん、お食事」、「食う、食べる、いただく」というグループを『類語』とか『類義語』と呼んでいます。
同義語と類義語…テキストマイニング視点での利用
テキストマイニングは微妙な言葉使いよりも指し示す内容をつかむことが目的なので、上の例のようなニュアンスはむしろ無視したいところです。
単語が何を指し示すか(=語義)ということから見れば、上のグループは『同義語』と言っていいでしょう。
「PC」と「パソコン」、「勤める」と「勤務する」というような言葉を『同義語』として登録しておくと、言い回しは違っても内容が同じである単語や係り受けを自動でまとめることができて、文章のグループ化の効率が大幅にアップします。
広義での類義語の考え方…上位語と下位語
もっと大づかみに文章をグループ化したいという時、例えば、「PC、パソコン、サーバー、マシン、コンピュータ、電算機、電子計算機」をひとまとめにすることもあります。
これらは本来『類義語』ですが、よく見ると「コンピュータ、電子計算機」は「PC、パソコン」とはちょっとレベルが違うという気がしませんか?
「コンピュータ、電子計算機」は「PC、パソコン、サーバー」を含んでいるという感じがします。
こういう場合、「コンピュータ、電子計算機」の方を『上位語』と言い、「PC、パソコン、サーバー」の方を『下位語』と言います。
『上位語』はより一般的なものを指すので『総称(generic term)』とも言い、
『下位語』はより特殊で個別なものを指すので『個称(specific term)』とも言います。
単語の上位・下位を見つけるためには、「○○は△△(の一種)です」という言い回しをしてみることです。
これが自然に聞こえたら、『○○は△△の下位語である』ということになります。
- 「パソコン(PC)はコンピュータ(電子計算機)の一種です」
- 「犬(猫)はペット(動物)の一種です」
- 「行く(来る)は移動することの一種です」
というように言ってみることで、上位語・下位語の関係を確かめることができます。
上位語・下位語の体系
「犬」は「ペット」の下位語ですが、より個別の「柴犬、プードル、ブルドッグ、…」にとっては上位語です。
このように上位・下位は相対的なものです。
また、ひとつの単語にも語義がいくつかあるので、その語義によっていくつかの上位語に結びついたりもします。
とはいえ、あらゆる単語を上位語と下位語の関係で上下に配置できたら、動植物の分類図のような末広がりの階層ができるはずです。
そういう試みのひとつに『EDR電子化辞書』があります。
そのイメージ(部分)はこんなふうになっていて、配置された項目の中に実際の単語(語義)が割り振られて上位下位関係の体系が出来上がっています。
どんな項目をどう配置するかは諸説があるとしても、このように分類すると、同じ項目にまとまった単語は、親族にたとえれば兄弟同士や従兄弟同士のような関係となるので、その中に『類義語』や『同義語』とみなせるものが簡単に見つかるということになります。
『言葉の知識』
私たちは言葉を選んだり言い変えたりする時に、無意識のうちにこのような分類体系を背景にしていると思われます。
これは文法ではなく『言葉の知識』というべきものです。
(もちろん、上位下位関係以外にもさまざまな『言葉の知識』があります。例えば、「身体」に対する「手、足」のような『全体-部分』の関係とか、「人」に対する「性別、人柄」のような『主体-属性』の関係とか。)
文を正しく解析するためには、文法とともにこういった『知識』も総動員しなくてはなりません。
解析結果を分析するテキストマイニングにおいても、こういった『知識』を利用することで文章の『理解』に近づくと期待できます。
どのように役立つかは、この先に予定している「意味解析とは?」のところでお話ししようと思っています。
まとめ
今回は、“同義語“、“類義語”について、テキストマイニングという目線から簡単にご紹介しました。
今後もこうしたテキストマイニングの技術について解説していきます。
---------
担当:住谷・高井・小山