三省堂コーパスとは

1 コーパスとは

コーパスとは「(特定の種類・作家の文書[資料]の)集大成、集積」をさす。現在では、大量に収集したテキストデータをコンピュータで解析可能なかたちにした、いわゆるコンピュータコーパスをさすことが多い。辞書の編纂においては伝統的に、用例カードなど何らかのかたちで「コーパス」的な資料が用いられてきたが、1980年代後半から英国ではコンピュータコーパスを利用して大量のデータを扱うようになった。現在、英国では学習英英辞典のほとんどがコンピュータコーパスを用いて編纂されたものになっている。日本国内でのコーパス利用は遅れたが、独自にコーパスを構築した上で編集最初期の段階から全面的にそれに依拠して編纂された学習英和辞典としては、『ウィズダム英和辞典』(初版:2003)が初めてのものである。

2 三省堂コーパスとは

本辞典の編纂に用いた三省堂コーパスは、三省堂が独自に開発・ 構築した、日本人の英語学習に特化したコンピュータコーパスである。 既存のBritish National Corpus(BNC)などの大規模コー パスのみをそのまま利用するのではなく独自のコーパスを構築したのは、 日本人が英語学習に用いる辞書を編纂するという明確な目的が背景にあったからである。日本人学習者が英語学習の伴侶として用い る辞書は、2つの領域を射程に入れる必要がある。1つは、教科書や入試問題など英語学習の場面でよく出てくる語や表現であり、もう1つは、英語母語話者との対話を始めとする日常生活や、英語の新聞・雑誌・書籍・映画にふれる際など、実際に英語を意思疎通の手段として使用する場面で接する語や表現である。既存の英国産の大規模コーパスを使う場合、英国と米国での使用頻度の差や話し言葉と書き言葉の比率を補正する作業が必要になる。また、コーパスの原典となっている資料も書き言葉の割合が高く、高度な英語運用能力を持つ人には見合うが、英語を母語としない学習者にとっては敷居の高い表現が多く含まれるきらいがある。そこで、本当の意味で日本人英語学習者が必要とする英語に配慮した、バランスの取れたコーパスの構築を目指した。三省堂コーパスは、上述の2つの領域を同時にカバーするために、新聞・雑誌・カタログ・インタビューなどから、日常生活で用いられる平易な文体の英語を中心に、幅広くデータを収集した。また、第3版への改訂を機会に、コーパスに新しいデータを追加すると同時に、その構成比率も見直した。米5英5、話し言葉5書き言葉5の比率で構成する4千万語からなる第1コーパスを用意し、これをメインコーパスとした。さらに、初版、2版編集時と同様の構成比率、米6英4、話し言葉6書き言葉4での検証を可能にするため、2千万語の第2コーパスを用意し、第1コーパスと合わせて計6千万語のデータにあたれるようにした。加えて、ジャンルやレジスターにこだわらず、日本人英語学習者に役立つと思われる用例をできるだけ多く集めた計4千万語からなるサブコーパスを用意し、全体で1億語となるようコーパスを再構築した。

3 コーパスの利用

コーパスを使用して辞典を編集するにあたっては、検索ツールや統計処理を行うツールなどを駆使して分析を行うが、それによって、語句の使用頻度、ある語義の構文パターン、特徴的な連語関係といった言語事実をつかむことができる。たとえば、コンコーダンサーという検索用のソフトウェアを用いて、視覚的に語連結(コロケーション)の特徴をつかむことが可能になる。 検索対象語(keyword)を中心に、左右にその文脈が確認できるKWIC(= keyword in context) という表示形式で画面が示されるので、検索対象語の直前・直後などの位置にどういった単語がくるかが、一目瞭然である。これにより、用法、コロケーション、主語や目的語にどういった語がくるのかといった情報を、容易に把握することができる。

engageという動詞を例にとろう。

コンコーダンサーには一般的に、検索語の前後に生起する数語を基準にして行を並べ替える機能があるため、容易に特徴的なコロケーションを見つけることができる。この例では、engagedという過去分詞を検索語とし、engagedの右側(すなわち後ろ)1―3番目にinが共起するパターンを抽出し、まず右側1番目に来る語、次に左側1番目に来る語、さらに左側2番目に来る語を優先基準として並べ替えたものである。こうした作業を行い、個々の用例だけでは見出せないようなパターンン(e.g. be (actively)engaged in)を発見することができる。さらに、頻度や各種の統計値を処理する機能も備わっているので、科学的で客観的なデータが得られる。

従来は、語義の細かい情報を記述するには米英の辞書・語法書に頼ってきたが、コーパスを使えば、日本人学習者のニーズを知った執筆者が、実際に用いられている生の英語を解析するので、上例のように日本人学習者にとって本当に重要な情報を効率的に取り込むことが可能になるのである。

4 コーパス解析の結果

本辞典では、コーパスを活用する際2つの立場をとった。 1つはコーパスに基づいて従来語法上問題とされてきた事項や日本人が英語を使う上で疑問に思う事項を検証する立場である(corpus-based)。もう1つは、コーパス検索によって得られたデータから新たな言語事実や法則性を発見するコーパス駆動的な立場である(corpus-driven)。 このような立場と学習辞典としての規範的立場とを融合させて、随所でその成果を提示することとした。コーパスを分析することによって新たに得られた情報には、コーパス ロゴをつけて記述した。これは語義・用例の中の ! 注記や類義などのコラムに現れる。

 

また, コーパスから得られた情報のうち、頻度情報、表現のバリエーションとその適否, 頻出コロケーションといった事柄に関する特に有益で新鮮な情報は、 コーパスの窓 というコラムのかたちでまとめた。

ページの上部へ