« 耳の文化と目の文化(9)-視覚的な特性(2) - 『三省堂国語辞典』のすすめ その46 »

学習者コーパス“NICE”を検索する (9)

2008年 12月 16日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第16回

今回は、NICE 内の英作文を添削文と比較する方法を紹介します。

今回のデータ処理にあたっては、「サクラエディタ」(無償)と 「WinMerge」(無償)を使用します。

第5回の記事でも取り上げましたが、NICE の特徴のひとつとして、学習者の書いた作文に対し、母語話者の添削文が付与されていることを紹介しました。両者の文を比較することで、学習者の不自然な表現を、正しくはどう書くべきであったかを知ることができるようになります。この比較のため、今回は「WinMerge」というソフトを利用します。

比較をする前に、比較するデータを2種類用意する必要があります。ひとつは学習者の英文であり、もうひとつは母語話者による添削文です。学習者の英文を抜き出す作業手順については、第10回の記事で既に紹介しています。また、添削文だけを抜き出す作業手順は、学習者のデータを抜き出す手順と基本的に同じです。作業時の唯一の違いは、添削文が「%NTV」で始まる行であるという点で、この点にのみ気をつければ、Grep 検索で簡単に添削文のみを抽出することができます。

2種類のデータが用意できたところで、今度は「WinMerge」をインストールの上、起動します。ここでは、学習者の英文を集めた「nice_jp_all.txt」というファイルと、添削文を集めた「nice_ns_all.txt」という2種類のファイルを開くように指定し、OK ボタンを押せば、あっという間にデータの比較結果が色分けで表示されます。この操作の模様は、こちらの動画を参照してください。なお、動画では、画面の左側に学習者の英文、右側に添削文が表示されており、色の濃淡によって両者の違いが示されています。

表示された結果から、学習者の英文が母語話者によってどのように書き換えられているのかを観察して、必要に応じてエラータグなどの情報を埋め込み、新しい名前をつけてファイルを保存すれば、エラータグを含んだ新しいコーパスを構築することができます。エラーに関するデータが蓄積されれば、学習者の表現は、単語レベルでの不自然さが多いのか、構文レベルでの不自然さが多いのかといった調査も可能になります。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net

2008年 12月 16日