コーパスを用いた語義区分の実際
語の意義(語義)をいくつ認めるかはやっかいな問題である。その証拠に特定の単語の語義を複数の辞書で比べてみると,辞書によって語義の数が異なることがあり,また一方の辞書では独立した語義として扱っているのに,他の辞書では別の語義の一部として扱っていることがある。語義区分に客観的基準がなく,編集者の主観に左右されがちだからである。コーパスとコンコーダンスを辞書編纂に活用すると,この語義区分というやっかいな問題を解決できる。
コーパスを辞書編纂に利用する理論的根拠を与えたイギリスの言語学者,ジョン・シンクレア (1933-2007) は,語の振る舞いに関して次のように述べている。
- (1) 語は一定の語と優先的に結びつき,典型的な反復傾向すなわちパターンを示す。
- (2) 語は複数の異なるパターンを持つ傾向がある。
- (3) 語の意義の各々の違いはそれが生じるパターンの違いになって現れる。
(3)の主張を,語義区分の観点から見れば,パターンの違いを手掛かりに語義の識別が可能になるということである。目に見える形(form)から目に見えない意義(sense)に接近するのである。
『ウィズダム英和辞典』では語義区分にこの手法が用いられている。名詞gapを例に,コーパスに基づく語義識別のプロセスを示すことにする。gapを検索しコーパスから以下のコンコーダンスが得られたとしよう。
コンコーダンスに現れるgapの語彙的コロケーションあるいは統語上のパターンの違いに着目すると,1,4行目のbetween . . . teeth,9,11行目のin . . . fenceから ‘physical space’の語義「〈物の〉すき間,切れ目」を取り出すことができる。同様に,7,8,15,16行目のyear(s),month(s)から‘interval of time’の語義「(時間的な)空白,とぎれ」が,10,12,13,14行目のplug,fill,in . . . history [knowledge / budgets]から‘deficiency’の語義「抜けて[欠落して]いる部分」が,2,3,5,6,17, 18のbetween,bridge,fill,reduce,close,generation [trade] gapから‘discrepancy’の語義「隔たり,不一致; 不均衡」が識別できる。
用例にもコーパスデータから得られたコロケーション情報が洩らさず盛り込まれていることに注目していただきたい。