学習者コーパス“NICE”を検索する (9)

2008年 12月 16日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第16回

今回は、NICE 内の英作文を添削文と比較する方法を紹介します。

今回のデータ処理にあたっては、「サクラエディタ」(無償)と 「WinMerge」(無償)を使用します。

第5回の記事でも取り上げましたが、NICE の特徴のひとつとして、学習者の書いた作文に対し、母語話者の添削文が付与されていることを紹介しました。両者の文を比較することで、学習者の不自然な表現を、正しくはどう書くべきであったかを知ることができるようになります。この比較のため、今回は「WinMerge」というソフトを利用します。

比較をする前に、比較するデータを2種類用意する必要があります。ひとつは学習者の英文であり、もうひとつは母語話者による添削文です。学習者の英文を抜き出す作業手順については、第10回の記事で既に紹介しています。また、添削文だけを抜き出す作業手順は、学習者のデータを抜き出す手順と基本的に同じです。作業時の唯一の違いは、添削文が「%NTV」で始まる行であるという点で、この点にのみ気をつければ、Grep 検索で簡単に添削文のみを抽出することができます。

2種類のデータが用意できたところで、今度は「WinMerge」をインストールの上、起動します。ここでは、学習者の英文を集めた「nice_jp_all.txt」というファイルと、添削文を集めた「nice_ns_all.txt」という2種類のファイルを開くように指定し、OK ボタンを押せば、あっという間にデータの比較結果が色分けで表示されます。この操作の模様は、こちらの動画を参照してください。なお、動画では、画面の左側に学習者の英文、右側に添削文が表示されており、色の濃淡によって両者の違いが示されています。

表示された結果から、学習者の英文が母語話者によってどのように書き換えられているのかを観察して、必要に応じてエラータグなどの情報を埋め込み、新しい名前をつけてファイルを保存すれば、エラータグを含んだ新しいコーパスを構築することができます。エラーに関するデータが蓄積されれば、学習者の表現は、単語レベルでの不自然さが多いのか、構文レベルでの不自然さが多いのかといった調査も可能になります。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net


学習者コーパス“NICE”を検索する (8)

2008年 12月 2日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第15回

今回は、NICE 内の各英文に含まれる単語数をカウントする方法を説明します。

データの処理にあたっては、「サクラエディタ」(無償)と Microsoft Excel(以下、Excel と表記)を使用します。今回の動画では、Excel 2007 という最新版のものを使用していますが、古いバージョンの Excel でも、同じ手順で語数をカウントできます。

まずは、学習者の英文を抜き出す作業を行います。この作業手順については、第10回の記事で既に紹介しています。簡単におさらいをしておきますと、1) Grep 検索により学習者だけの英文を抜き出した後(参照:こちらの動画)、2) 不要な情報(フォルダ名など)を削除します(参照:こちらの動画)。学習者の英文を抜き出すことができたら、「nice_jpn_all.txt」といった名前をつけてデータを保存します。

続いて、保存したテキストファイルを、Excel を使って開きます。無事に開くことができれば、1つのセルに、1つの英文が入った形で表示されているはずです。

ここで、Excel の関数を使って、各文に含まれる単語数をカウントします。使う関数は、LEN・TRIM・SUBSTITUTE という3種類です。A1 のセルに入っている英文の単語数をカウントする場合は、隣のセル(=B1)に「=IF(LEN(TRIM(A1))=0,0,LEN(TRIM(A1))-LEN(SUBSTITUTE(A1,” “,”"))+1)」という式を入力します(※)。残りのセルに、この関数をコピーすれば、各英文の単語数を一気に出すことができます。操作の模様は、こちらの動画を参照してください。

Excel の関数の入力でミスをしなければ、特に操作が困難ということはありません。余力のある方は、最長の英文にはいくつの単語が含まれているか、また、ひとつの英文に含まれる平均単語数を調べてみてください。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net


※編集部注
当サイト上ではいわゆる全角の引用符が表示されますが,Excelではいずれもいわゆる半角の引用符を入力します。


学習者コーパス“NICE”を検索する (7)

2008年 11月 18日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第14回

今回は、NICE に含まれる単語の一覧表を作成する方法を説明します。

データの処理にあたっては、「サクラエディタ」(無償)と Microsoft Excel(以下、Excel と表記)を使用します。今回の動画では、Excel 2007 という最新版のものを使用していますが、古いバージョンでも同じ手順で、一覧表を作成することができます。

まずは、前回行った作業に加えて、記号類の削除をする処理を行います。今回は、ピリオド、コンマ、クエスチョン・マーク、エクスクラメーション・マーク、そして括弧の5種類を削除します。サクラエディタで、検索メニューから置換機能を選択し、置換前の欄には、「[\.\,\?\!\(\)]」を入力します。今は、削除の処理を行うので、置換後の欄には何も入力しません。正規表現の使用に関するオプションにチェックが入っているかどうかを確認し、「すべて置換」のボタンを押すと、5種類の記号が削除されます。

記号類の削除を行った後で、「nice_all.txt」といった名前をつけてデータを保存します。次に、このファイルを、Excel を使って開きます。無事に開くことができれば、1つのセルに、1つの単語が入った形で表示されているはずです。

まずは、単語をアルファベット順に並べ替えます。Excel のメニューから、「データ」→「並び替え」を選択し、昇順で並び替えます。処理が終わると、数字が一番上に並んでいて、その後を見ると「a」などが見つかるはずです。その後、単語の右隣のセルを選択し、COUNTIF という関数を使って、単語の頻度を求めます。例えば、A2 のセルにある単語の頻度を数えるには、B2 のセルに、「=COUNTIF(A:A,A2)」と入力します。この場合、「A の列に A2 に含まれる文字列があったらすべて数えなさい」という命令になっています。残りのセルに、この関数をコピーすれば、各単語の頻度を一気に出すことができます。

最後に、単語と頻度が重複している行を隠して見えないようにします。「データ」→「フィルタ」→「詳細設定」を選択します。ウィンドウの下に、「重複するレコードを無視する」というオプションがありますので、ボックス内にチェックを入れてから、「OK」ボタンを押します。すると、重複している行が消えて(正確には、非表示の状態になっています)、各単語とその頻度の一覧が表示されます。最後に、この一覧をコピーして、別のワークシートにコピーして貼りつければ、単語の一覧表が完成します。この操作の模様は、こちらの動画を参照してください。

Excel の操作が少し難しいかもしれませんが、並び替え、関数、フィルタリングという3つの機能を順番に使うだけですので、動画を見ながらゆっくりと操作すれば、単語の一覧表を作成することができますので、ぜひ試してみてください。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net


学習者コーパス“NICE”を検索する (6)

2008年 11月 4日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第13回

今回は、NICE に含まれる単語がいくつあるかを数え、どのような単語があるのかを一覧にする方法を説明します。

データの処理にあたっては、「サクラエディタ」(無償)と Microsoft Excel を使用します。Excel を使ってのデータ処理は、単語の一覧を作成する際に必要ですが、この内容は次回で詳しく説明します。

単語を数えるためには、まず、学習者の書いた文だけを抜き出す作業が必要です。この作業については、第10回の記事で説明していますので、詳しくは、そちらをご覧ください(その操作の模様を記録した動画はこちら)。

学習者の文だけを抜き出すことができたら、今度は、1行に1単語だけが並ぶ形に整形する処理を行います。この整形処理ができれば、その処理結果の行数を数えることで、NICE の総単語数(延べ語数)が分かるというわけです。

1行に1単語が並ぶようにするために、空白を目印にして、「その空白を改行に置換する」という作業を行います。なお、今回の処理では、説明を簡潔にするため、縮約形(例:don’t や isn’t など)を1語として扱うことにします。また、ここでは、ピリオドなどの記号類の処理は行わないものとします。

学習者の文だけが残っている状態(参照:第10回の記事)で、さらに置換作業を行います。置換作業の前に、データの冒頭と末端にある日本語文は削除しておきます。その後、「検索」メニューから「置換」を選択します。「置換前」の欄には半角のスペースを1つ入力し、「置換後」の欄には「¥n」と入力します。半角のスペースは、表示されませんが、全角のスペースを間違って入力しないように注意してください。また、「¥n」は、改行を表す正規表現になります。この操作の模様は、こちらの動画を参照してください。

一連の処理を行い、画面左端にある一番最後の行番号を見ると、「70787」となっているはずです。つまり、70787語が、学習者のデータに含まれている単語の総語数ということになります。

今回は、総語数を求めるだけでしたが、次回は、今回の処理結果を活用して、単語の一覧表を作成する方法を説明します。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net


学習者コーパス“NICE”を検索する (5)

2008年 10月 21日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第12回

今回は、前回の予告通り、NICE に含まれるスコアのデータを取得した後で行う、データの整形作業について説明します。

NICE のデータ処理に使うソフトウェアとして、今回も引き続き「サクラエディタ」(無償)を使用します。

前回までの作業は、エディタの「Grep」機能を使い、「TOEIC」という文字を検索して、TOEIC のスコアが含まれている行を抽出するというものでした(この作業の動画はこちら)。

検索結果を見ると、フォルダの名前や他のテストの結果など、不要な情報が含まれていることが分かります。そこで、今回は、エディタの「置換」機能を利用して、不要な情報を削除し、必要な情報を残すことにします。ここでは、必要な情報として、1) 学習者の ID 番号、2) TOEIC というテスト名、そして、3) TOEIC のスコアの3つを残します。

「Grep」機能で TOEIC スコアを含む行を抽出した後で、「置換」機能を選択し、置換前の文字列として「.*?(JPN…).*?(TOEIC)=(…).*」を入力し、置換語の文字列として「\1\t\2\t\3」を入力します。この置換処理により、不要な情報が削除され、「JPNxxx [タブ] TOEIC [タブ] yyy」という具合に、必要な3つの情報だけが残されているはずです。その操作の模様は、こちらの動画を参照してください。

あとは、この結果のデータをコピーし、Excel のワークシートへ貼りつければ、各情報が3列になって表示されるはずです。(もし1つのセルに3つの情報がコピーされてしまうなど、上手くいかない場合は、「テキスト ファイル ウィザード」を利用し、タブを区切り文字とすることで、コピー時のエラーを回避できます。)

前回紹介した作業と今回の作業を行えば、スコア取得者の一覧表が出来上がることになります。一覧表ができたら、取得者の平均スコアや標準偏差なども算出してみてください。

次回は、単語数の求め方について説明します。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net


学習者コーパス “NICE” を検索する (4)

2008年 10月 7日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第11回

本連載の第9回から NICE の発展的な検索手法を紹介していますが、今回は、各データに含まれている個人情報をもとに、データの絞り込みを行う方法を紹介します。

NICE のデータ検索に使うソフトウェアとして、今回も「サクラエディタ」(無償)を使用します。

NICE では、学習者の個人情報をもとにしてデータを選別することができます。例えば、英語の能力試験の結果が記録されていますから、TOEIC のスコアを基準に、データを上級者と中級者に分けることが可能です。もちろん、選別するためには、まず、TOEIC スコアの情報を取得する必要があります。

ここで、実際のデータを見てみましょう。次の画像をクリックしてください。

NICE のファイルの冒頭では、行頭がアットマーク(@)で始まっていることが分かると思います。このアットマークで始まる部分に、学習者の個人情報が含まれています。ここでは、TOEIC スコアを取得しますので、「@Quaification」で始まる行を抽出すればよいということになります。

ここで、エディタの「Grep」機能を使って検索します。「@Quaification」で始まる行は、「TOEIC=700」というように「テスト名=スコア」という形式で記録されているので、検索条件には「TOEIC」という文字を入力し、検索を開始します。その操作の模様は、こちらの動画を参照してください。検索の結果、121件がヒットするはずです。

「Grep」機能による検索を行うと、検索条件が含まれた1行すべてが結果として表示されてしまうため、この処理の後に、前回と同様、不要な情報(行の始めにあるフォルダ名や他の能力テストの情報)を削除し、見やすくなるように整形します。データを整形したら、そのデータを Excel などの表計算ソフトに読み込ませることで、スコア取得者の一覧表を作成し、取得者の平均スコアを算出したり、高いスコアが記録されたデータはどれかを確認したりすることができるようになります。

次回は、スコアの取得後に行うデータの整形作業について説明します。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net


学習者コーパス “NICE” を検索する (3)

2008年 9月 23日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第10回

前回から、「正規表現」を用いた NICE の発展的な検索手法を紹介していますが、今回は、その正規表現を用いて、学習者の書いた文だけを抜き出す方法を紹介します。

NICE のデータ検索に使うソフトウェアとして、引き続いて、「サクラエディタ」(無償)を使用します。

前回NICE から「computer(s)」という単語を検索しましたが、検索結果には、学習者の書いた文も含まれていますし、学習者の書いた作文(「*JPN」で始まる行に記録)を母語話者が添削した文(「%NTV」で始まる行に記録。以下、「添削文」と呼びます)も含まれていることがわかります。

学習者コーパスの調査では、まず、「学習者が何を書いているのか」を調査することになるので、NICE のデータを検索する際は、母語話者による添削文は検索対象から外す必要があります。ですから、ある表現を検索をする前に、「学習者の書いた文だけを抜き出すと添削文を「別々に分けておく」という処理が必要になります。処理の手順は、以下の2点です。

(1) 学習者の書いた文だけを抜き出す
(2) 不要な情報(話者記号などの学習者の文ではない文字列)を削除する

はじめに、学習者の書いた文だけを抜き出します。学習者の書いた文は、「*JPN」で始まりますから、それを手がかりにして「Grep」検索を行います。その操作の模様は、こちらの動画を参照してください。検索の結果、5464個の文が抜き出されるはずです。

次に、不要な情報を削除します。検索結果には、フォルダの名前(「My Documents」など)や「*JPN」という学習者の文であることを識別するために入力した情報が含まれており、これらは学習者の書いた文ではありませんので削除しておく必要があります。そのため、サクラエディタの「置換」機能を利用し、「*JPN」を含む検索結果の左側に並んでいる情報を一括で削除します。その操作の模様は、こちらの動画を参照してください。

置換の条件を指定する画面では、「置換前」の文字列として、「^.*\*JPN.*\t」と入力し、正規表現を使って学習者の文ではない箇所(文字列)を指定しています。また、「置換後」の文字列には、何も入力しません。「ある文字列を何もないものに置換する=削除」ということになります。なお、置換を実行する前に、「該当行をマーク」というボタンを押せば、どの範囲が置換(今回の場合は、削除)されるのかを確認することもできます(黄色でハイライト表示されます)。

(1) と (2) の一連の操作が成功していれば、学習者の書いた文だけが残っているはずです。あとは、このデータを保存して、語数を数えたり、文の数を数えたり、単語の一覧表を作ったり、さまざまな分析作業を加えていくことになります。

次回以降も、この正規表現などを使いながら、コーパスのデータ処理・検索手法を紹介します。


▼お知らせ
現在、学習者コーパス「NICE」のベータ版配布を行っています。無償で利用可能ですが、お申し込みが必要です。詳しくは、こちらのサイトをご覧ください。なお、10月頃を目処に、正式版の公開を予定しています。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net


英語辞書の将来と利用者の役割 (1)

2008年 9月 12日 金曜日 筆者: 関山 健治

英語辞書攻略ガイド (13)

連載のまとめとして,今までにお話ししたことをふまえながら,これからの英語辞書はどうなっていくのか,また,辞書利用者である私たちは英語辞書とどのように向き合っていくべきかについて,2回に分けて私見も交えながらお話ししたいと思います。

これからは,冊子辞書が再評価される時代!

「これからの辞書」というと電子辞書を思い浮かべる人が多いかもしれません。たしかに,ここ数年の電子辞書の急速な進化は目を見張るものがあり,とくに教員や研究者は,分厚い大型辞書を肌身離さず持ち歩けるようになったことで,大きな恩恵を受けているのも事実です。しかし,学習者,それも中学や高校で英語を学んでいる人にとっての「文房具」として考えたとき,最近の電子辞書の進化は本当に手放しで喜べることなのでしょうか?

モデルチェンジのたびにコンテンツ数が増え,よく使う辞書が逆に引きにくくなったり,動作が重くなったりと,電子辞書の使い勝手にはまだまだ課題が山積しています。収録語数の多い辞書を搭載することが優先され,英語が苦手な学習者でも使いこなせる初級,中級レベルの学習辞典が搭載されている機種が少ないのも,学校現場での電子辞書の弊害と言えます。

一方,冊子辞書は,そんな電子辞書の進化を横目で見ながら,虎視眈々と進化を続けています。オールカラー化,ウェブ版の無料提供,囲み記事や付録の拡充など,とくに電子辞書化されていない冊子辞書は,ここ数年で急速に発展を遂げました。電子辞書の進化が一段落した今だからこそ,冊子辞書の良さをもう一度見直す時期に来ていると言っても過言ではありません。

「情報量の制約」こそが冊子辞書のメリット

電子辞書と比較した冊子辞書のデメリットとしてよく言われることに,冊子辞書は製本上の制約のため,収録情報量に限りがあるということがあります。たしかに,収録項目数何百万という,オンライン専用辞書のような芸当は冊子辞書には真似できませんが,むしろこのことが冊子辞書の良さであると言えるのではないでしょうか。コーパスが普及した今なら,昔の辞書と違い,情報量を増やすこと自体は比較的容易です。だからこそ,物理的に情報量を精選せざるをえない冊子辞書に存在意義があると言えます。

Googleで検索し,何百件,何千件というヒットがあっても,ほとんどの人は最初の数件,数十件しか見ないでしょう。同様に,せっかく情報量の多い辞書が搭載されていても,多くの学習者は上位語義の訳語をざっと見るだけで終わらせているのが現状です。使用域が限定される俗語や専門用語まで網羅した専門家向けの辞書を,電子辞書に入っているからというだけで常用し,情報が多すぎて難しく感じる英語学習者は多くいますが,このような学習者にこそ,情報を精選した初級,中級レベルの冊子学習辞書を手にとってほしいと思います。

情報を増やす以上に減らす勇気を

辞書の情報を精選するにあたっては,辞書執筆者,編集者は,類書に載っている単語だからと無批判に追加収録するのでなく,コーパスの出現頻度などをもとに,必要ないと判断した語や語義を積極的に削除することも必要になります。分量の制約の中で,新語,新語義を収録しつつ,学習辞典として必要ないと判断した語を削らないといけないというジレンマは,辞書に携わる者なら誰もが経験することだと思います。私も,『ウィズダム英和辞典』の改訂作業に携わった際,一番苦労したのが,旧版に収録されている語をコーパスなどで精査し,そのまま載せるべきか否かを判断する作業でした。

「収録語数至上主義」に陥りがちな辞書業界の中で,せっかく収録されている情報を削るというのは相当の勇気がいりますが,「利用者にとっての使い勝手という点では,必要以上に情報が多いことはマイナスになりうる」「闇雲に収録情報量を増やすことは機械でもできるが,収録の是非を吟味し,不要と判断した情報を削ることは生身の人間しかできない」ということを,私を含め,辞書に携わる者は常に頭に入れておく必要があるのではないでしょうか。

辞書が改訂されると,必ず追加語,語義の例が紹介されますが,逆に旧版から削除された語が公表されることはまずありません。しかし,先にもふれたように,最新のデータをもとに既存の情報を吟味し,必要に応じて削るということは,辞書執筆者の「匠」としての腕の見せ所であり,毎日のように新語が追加されるオンライン辞書が決して真似できない,冊子辞書ならではの特徴と言えます。これからの冊子辞書は,新規収録された情報量に加え,収録を取りやめた情報量も競い合う時代になることが望まれます。

次回は,主に利用者,英語教員の立場から,辞書指導,辞書批評のあり方について考えてみたいと思います。


【筆者プロフィール】

関山健治(せきやま・けんじ)
1970年愛知県生まれ。南山大学大学院外国語学研究科英語教育専攻修士課程修了(応用言語学),愛知淑徳大学大学院文学研究科英文学専攻満期退学(英語辞書学・語用論)。現在,沖縄大学法経学部准教授。

著書に『辞書からはじめる英語学習』(2007,小学館),『ウィズダム英和辞典第2版』(共同執筆,三省堂,2006),訳書に『英語辞書学への招待』(共訳,大修館書店,2004),『コーパス語彙意味論』(共訳,研究社,2006)などがある。


【編集部より】
英語辞書界にこの人ありと言われる関山健治先生に,英語の辞書に関する有益な情報を集中連載していただきます。
→これまでの連載記事一覧


英語辞書攻略ガイド (7)

2008年 5月 30日 金曜日 筆者: 関山 健治

英語辞書の重要度ランクと英語学習

いわゆる「英語名人」の武勇伝としてよく例に出されることですが,昔の英学者達の中には,辞書を最初のページから丸暗記し,覚えたページは食べてしまったという,強靱な胃袋を持っている人もいたそうです。学習英和辞典というものがほとんどなかった頃なら,辞書に載っている単語を闇雲に覚える人も珍しくなかったのかもしれませんが,最近の学習辞書には,非常に細かな重要度ランクが星印で記載されているので,胃腸の弱い人でも効率的に英語学習を進めることができます。

昔の学習英和辞典は,英語圏で何十年も前に構築された基本語彙リストや執筆者の直感などをもとに重要度ランクが決められているものが多くありました。そのため,私たちが日常的に目にする大学入試問題や資格試験,教科書等の英文の出現頻度とは少なからずずれがあったように思います。しかし,最近では,三省堂コーパスなど,日本人の英語学習に特化したコーパスを参考にすることで,より実際の出現頻度に近いランク付けがされています。一方で,従来よりも重要度ランクが細かく区分されるようになり,「どのランクの単語まで覚えればいいのか」と疑問を抱く学生や教員も多くいるのではないでしょうか。

今回は,前回考察した,『グランドセンチュリー英和辞典』『ウィズダム英和辞典』の全見出し語のカバー率データをより細分化し,重要度ランクごとのカバー率を算出してみました。結果は,以下のグラフの通りです。このグラフは,実用英語技能検定,センター試験のカバー率を,各英和辞典の重要度レベルごとの累計で示したものです。たとえば,グラフ1(グランドセンチュリー英和辞典)の場合,センター試験の「**」ランクのカバー率が約76%となっていますが,これは,『グランドセンチュリー英和辞典』の上位2ランク(「***」と「**」)の見出し語のみで,大学入試センター試験の長文問題で出現した単語の約76%がカバーできることを意味します。

(グラフ1)重要度ランク別累計カバー率(グランドセンチュリー英和辞典)
gcentury.jpg

(グラフ2)重要度ランク別累計カバー率(ウィズダム英和辞典)
wisdom.jpg

これらのグラフを見ると,とくに英検2級とセンター試験では,『グランドセンチュリー英和辞典』『ウィズダム英和辞典』ともに,「**」ランクでカバー率が急増していることが分かります。このランクは「高校学習語(高校必修相当語彙)」とされており,約2800語が含まれていますが,「中学学習語(中学必修相当語彙)」の「***」ランク(約900語)と合わせて約3700語をマスターすれば,センター試験をはじめとした標準レベルの大学入試や,英検2級などの高校卒業程度の資格試験においても,約8割の単語がカバーできることになり,必要十分な語彙力を身につけることができると言えます。“ウィズダム”,“グランドセンチュリー”とも,「***」「**」ランクの語は大活字で表示されていますので,「高校3年生までに,大きな活字の見出し語の単語をすべてマスターすること」というような指導をすることで,より効率のよい単語学習をすることができます。

最近は,受験用単語集を辞書のかわりに使う高校生も増えていますが,受験用単語集は,中学,高校初級レベルの基礎的な単語が出ていないことが多く,とくに英語が苦手な受験生の場合,重要な単語が漏れてしまうこともあります。一方,辞書の重要度表記は,中学1年レベルの単語から,英語を専門にする大学生でも知らない単語まで,もれなく記載されていますので,「知らない単語を辞書で引いたら,必ず重要度表記もチェックし,単語帳に書き写す」ということを習慣にさせるとよいのではないでしょうか。「この単語は受験でよく出ますか?」と教員に質問する生徒も多くいますが,未知語を辞書で引いた際,「覚えるべき単語かどうか」を,重要度表記を参考にして自分で選別させることも有効でしょう。

次回は,最近の英語辞書に見られる「使いやすさ」に焦点をあて,「辞書」という書物が「いまどきの英語学習者」にどう歩み寄ろうとしているのかを考えてみたいと思います。


【筆者プロフィール】

関山健治(せきやま・けんじ)
1970年愛知県生まれ。南山大学大学院外国語学研究科英語教育専攻修士課程修了(応用言語学),愛知淑徳大学大学院文学研究科英文学専攻満期退学(英語辞書学・語用論)。現在,沖縄大学法経学部准教授。

著書に『辞書からはじめる英語学習』(2007,小学館),『ウィズダム英和辞典第2版』(共同執筆,三省堂,2006),訳書に『英語辞書学への招待』(共訳,大修館書店,2004),『コーパス語彙意味論』(共訳,研究社,2006)などがある。


【編集部より】
新学期にあたり,英語辞書界にこの人ありと言われる関山健治先生に,英語の辞書に関する有益な情報を短期集中連載していただきます。
→これまでの連載記事一覧


英語辞書攻略ガイド (6)

2008年 5月 16日 金曜日 筆者: 関山 健治

学習英和辞典の収録語数

学生にとっても,教員にとっても,辞書を買おうとする時に最も気になることが,「どれぐらいたくさんの語が収録されているか」ということなのではないでしょうか。さすがに,「語数が一番多い辞書を買いなさい」などと言って,高校新入生に『グランドコンサイス英和辞典』などの一般英和辞典をすすめるようなことは最近はないと思いますが,同じ学習辞典であれば,少しでも語数の多い辞書を買わせたいと考える先生方は少なからずいらっしゃるようです。大学新入生を見ていても,英語が苦手な学生が,高校入学時に指定されたと言って『ウィズダム英和辞典』などの上級学習英和辞典を苦労して引いていたり,多くの電子辞書に収録されている,数十万語を収録した学習大英和を背伸びして使っている学生がかなりいます。

近年は,ネット掲示板などで「高校初級レベルの学習英和辞典では,センター試験や各種の資格試験には対応できないので,大学進学をめざすのであれば,上級学習辞典を使うべきだ」と言った風評も散見されます。たしかに,三省堂の学習辞書の場合,高校初級向けの『ビーコン英和辞典』の見出し語数が約47,300,上級向けの『ウィズダム英和辞典』が約90,000と,同じ学習辞典でも約2倍近い開きがあり,数値だけで見れば,収録語数の差は歴然としているように見えます。大辞典クラスの辞書が電子辞書に搭載される現在では,上級レベルの学習英和辞典でさえ,「難関大学の入試には対応できない」などと批判されかねない状況です。

しかし,実際にそのようなことがあり得るのでしょうか? 客観的な検証をするために,ビーコン,グランドセンチュリー,ウィズダムの全見出し語一覧をデータベース化し,手元にあるセンター試験長文(2000年度~2006年度までの本試験・追試験の大問4~6の本文)と英検長文(2004年度第3回~2007年度第3回までの1級~準2級の長文本文)のコーパスと突き合わせ,辞書ごと,試験種別ごとのカバー率を算出してみました。

算出にあたっては,長文問題本文の単語すべて(固有名詞,専門用語等も含む)を分析対象とし,変化形をすべて原形に置き換え(レマ化)た上で,各長文問題の出現語リストを作成しました。このリストと辞書ごとの見出し語一覧をコーパス分析ソフトで照合し,合致する語の割合を示したものがカバー率になります。たとえば,ある辞書のカバー率が100%であれば,長文問題に出てくる語のすべてがその辞書の見出し語に出ていることになります。

結果は,次の表の通りです。

xmhfurfj391ti59wrc9byvue_400.png

辞書執筆に携わる者として,収録語数に関わる様々な風評は,以前から眉唾だと感じてきましたが,この表を見ると,私の想像以上にカバー率が高いことに驚かされます。

収録語数が最も少ない『ビーコン英和辞典』でさえ,実際には,センター試験は言うまでもなく,英語母語話者でも手強い難語が出題されることで有名な英検1級の長文問題でも,カバー率は8割を優に超えています。高校生の多くが受験する英検2級やセンター試験レベルなら,どの辞書でも9割以上のカバー率をマークしており,収録語数に関しては,辞書間の格差はほとんどないことがうかがえます。

もっとも,カバー率にそれほど差がなくても,『ウィズダム英和辞典』をはじめとした上級レベルの学習辞典には,詳細な文法,語法解説や,用法上の様々なラベルなど,より詳しい情報が盛り込まれています。そのため,高校入学時に『ビーコン英和辞典』で基礎を身につけ,英語が得意になった生徒が,大学受験を前に『ウィズダム英和辞典』に買い替えるということはごく自然なことですし,無理に背伸びをすることなく,常に自分の実力にぴったり合った辞書を信頼して使うということは,英語学習を効率よく進める上でも重要なことでしょう。収録語数の数字で辞書の優劣を判断するのではなく,どの辞書でも高校の教科書は言うまでもなく,難関大学を含めた受験にも対応していることを生徒に理解させ,自分のレベルにあった辞書を自信を持って使わせたいものです。

次回は,今回の分析をもとに,辞書の頻度・重要度表示(星印)とカバー率の検証を行いたい,高校生の大きな関心事である,「このレベルの試験を受けるには,辞書のどの単語を覚えるといいか」ということに迫ってみたいと思います。


【筆者プロフィール】

関山健治(せきやま・けんじ)
1970年愛知県生まれ。南山大学大学院外国語学研究科英語教育専攻修士課程修了(応用言語学),愛知淑徳大学大学院文学研究科英文学専攻満期退学(英語辞書学・語用論)。現在,沖縄大学法経学部准教授。

著書に『辞書からはじめる英語学習』(2007,小学館),『ウィズダム英和辞典第2版』(共同執筆,三省堂,2006),訳書に『英語辞書学への招待』(共訳,大修館書店,2004),『コーパス語彙意味論』(共訳,研究社,2006)などがある。


【編集部より】
新学期にあたり,英語辞書界にこの人ありと言われる関山健治先生に,英語の辞書に関する有益な情報を短期集中連載していただきます。
→これまでの連載記事一覧


次のページ »