三省堂コーパスとは

1 コーパスとは

コーパスとは「(特定の種類・作家の文書[資料]の)集大成、集積」をさす。現在では、大量に収集したテキストデータをコンピュータで解析可能なかたちにした、いわゆるコンピュータコーパスをさすことが多い。辞書の編纂においては伝統的に、用例カードなど何らかのかたちで「コーパス」的な資料が用いられてきたが、1980年代後半から英国ではコンピュータコーパスを利用して大量のデータを扱うようになった。現在、英国では学習英英辞典のほとんどがコンピュータコーパスを用いて編纂されたものになっている。日本国内でのコーパス利用は遅れたが、独自にコーパスを構築した上で編集最初期の段階から全面的にそれに依拠して編纂された学習英和辞典としては、『ウィズダム英和辞典』(初版:2003)が初めてのものである。

2 三省堂コーパスとは

本辞典の編纂に用いた三省堂コーパスは、三省堂が独自に開発・ 構築した、日本人の英語学習に特化したコンピュータコーパスである。 既存のBritish National Corpus(BNC)などの大規模コー パスのみをそのまま利用するのではなく独自のコーパスを構築したのは、 日本人が英語学習に用いる辞書を編纂するという明確な目的が背景にあったからである。日本人学習者が英語学習の伴侶として用い る辞書は、2つの領域を射程に入れる必要がある。1つは、教科書や入試問題など英語学習の場面でよく出てくる語や表現であり、もう1つは、英語母語話者との対話を始めとする日常生活や、英語の新聞・雑誌・書籍・映画にふれる際など、実際に英語を意思疎通の手段として使用する場面で接する語や表現である。既存の英国産の大規模コーパスを使う場合、英国と米国での使用頻度の差や話し言葉と書き言葉の比率を補正する作業が必要になる。また、コーパスの原典となっている資料も書き言葉の割合が高く、高度な英語運用能力を持つ人には見合うが、英語を母語としない学習者にとっては敷居の高い表現が多く含まれるきらいがある。そこで、本当の意味で日本人英語学習者が必要とする英語に配慮した、バランスの取れたコーパスの構築を目指した。三省堂コーパスは、上述の2つの領域を同時にカバーするために、新聞・雑誌・カタログ・インタビューなどから、日常生活で用いられる平易な文体の英語を中心に、幅広くデータを収集した。また、第3版への改訂を機会に、コーパスに新しいデータを追加すると同時に、その構成比率も見直した。米5英5、話し言葉5書き言葉5の比率で構成する4千万語からなる第1コーパスを用意し、これをメインコーパスとした。さらに、初版、2版編集時と同様の構成比率、米6英4、話し言葉6書き言葉4での検証を可能にするため、2千万語の第2コーパスを用意し、第1コーパスと合わせて計6千万語のデータにあたれるようにした。加えて、ジャンルやレジスターにこだわらず、日本人英語学習者に役立つと思われる用例をできるだけ多く集めた計4千万語からなるサブコーパスを用意し、全体で1億語となるようコーパスを再構築した。

3 ウィズダム和英辞典第2版における学習者コーパスの活用

近年研究の著しい進展が見られる学習者コーパスのち県を取り入れて用例を検討しました。日本人学習者の弱点とも言うべき語、すなわち日本人が一般的に英語を書く上で誤りやすく留意すべき語については、石川慎一郎氏に執筆を依頼し、日英対照の学習者コーパスの分析結果を解説して改善のヒントを示す囲み記事を設けて注意を喚起した。

LEADERS CORPUS 学習者コーパスノートについて

1.目的

日本人が英文を書く場合に、過剰に使用しがちな語彙と、十分に使用できていない語彙を科学的に特定し、 学習上の有用性の高い情報として提供することを目的とする。

2.使用したデータ

神戸大学石川研究室で開発された国際英語学習者コーパスICNALE に含まれる、日本人大学生英作 文24万語および英語母語話者作文12万語のデータを分析に用いた。

3.過剰・過少使用語彙の選定手順

まず、作文中で使用されたすべての語について日本人および母語話者による使用頻度を算出した。
ついで、対数尤度比統計量(log likelihood ratio)を計算し、個々の語ごとに、日本人および母語話者間 での頻度のずれの大きさを計量化した。統計量がプラスであれば日本人が母語話者に対して過剰に、統計量が マイナスであれば過少に使用していることを示す。ここでは、統計量が絶対値で100を超えるものを過剰・過少使用語彙の候補とした。

統計的に抽出された語には、作文テーマ(アルバイト/禁煙)に影響されたものも含まれているため(たとえば日本人の過剰使用語上位には"smoke"や"money"が含まれる)、それらを手作業で除去し、日本人が一般的に英語を書く上で留意すべき語に限って項目執筆を行うこととした。最終的に過剰使用語については12 語、過少使用語については10語を選んだ。

4.項目に記載する内容

個々の項目においては、過剰・過少の傾向が一目でわかるよう、過剰使用語には★、過少使用語には☆の マークを付した。なお、星の数は対数尤度比統計量の値に対応しており、統計量500以上のものには星が5つ、400以上には4つ、300以上には3つ、200以上には2つ、100以上には1つを付けている。
また、ICNALEのデータをすべて質的に解析し、日本人、母語話者がそれぞれ当該語とともに使いやすい 共起語や、当該語が出現する典型的な表現形を可能な限り具体的に明示し、辞書の利用者が自然な英語を 書く上で実際的に有効なヒントとなるよう配慮した。
加えて、可能な場合は、当該語が過剰哀過少使用になる要因について主として対照言語学的な観点から考察し、平易な日本語で解説するようにした。たとえば、日本人学習者は名詞problemを多用し、issueを過少使用するが、これは日本語の「問題」が実害を伴う"問題"と議論のテーマとしての"問題"を区別しない一方、英語ではproblemとissueが使い分けられることに起因する。こうした背景についても記述を試みた。

ページの上部へ