« 明日は何の日:7月30日 - 明日は何の日:7月31日 »

学習者コーパス“NICE”を分析する (1)

2008年 7月 29日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第6回

これまでは、学習者コーパスとは何か、「NICE」という学習者コーパスがどんなものかを説明してきましたが、今回から、その NICE をどう分析し、学習者の特徴として何が見えるのかをお話ししたいと思います。

学習者が書く作文の特徴を見つけるためには、比較するデータが必要になります。最もわかりやすい比較は、英語母語話者の人が書いた作文と比べてみることです。比較によって、学習者に特有の表現を見つけられますし、学習者がどのようなエラーをしやすいのかが分かるようになります。今回は、学習者が書いた作文と母語話者が書いた作文を区別しようとする時、何を基準にすると両者を区別できるのかについて調べた研究をご紹介します。

NICE に含まれる学習者と母語話者のデータを利用し、「判別分析」という統計手法を用いて、学習者と母語話者の作文を区別する要因を探りました。この時、要因として取り上げたものは、

の6つです。ちなみに、「Token」とは、単語のすべての数を表します。一方で、「Type」は、単語の種類の数を表しています。例えば、apple と apples という2つの単語があった場合、Token としては別々に数えるので、2になりますが、Type としては1つの種類にまとめられるので、1になります。また、「Type/Token Ratio」は、語の豊富さを示す指標として、コーパスの分析時にはよく利用されます。これらの値を、各作文データ1つ1つに対して求めていきます。

求めた数値を元に、判別分析を行った結果、「異なり語数(Type)」と「延べ語数(Token)」の2つが、学習者と母語話者の書いた作文を区別する要因として影響していることが分かりました。つまり、語の種類(=Type)が多く、また、総語数(=Token)が多ければ、その作文は、母語話者の書いたものして分類できるだろう、となるわけです。言い換えれば、母語話者に比べ、学習者は多く書けないし、語の種類も少ないということになります。

ただし、今回の結果は暫定的なもので、今後も調査を続けることが必要です。また、この分析では、数値として表すことにできるデータのみを利用しています。つまり、数値化しにくい「作文の内容や構造(文型や構文など)」は考慮に入れておらず、作文の質に影響すると思われるこれらの要因を加えた上で再分析することも必要です。

今回は、NICE の分析から、異なり語数と延べ語数を基準にすると、学習者が書いた作文と母語話者の書いた作文を区別できるという事例を紹介しました。次回も、NICE を使った分析事例を紹介します。


▼お知らせ
現在、学習者コーパス「NICE」のベータ版配布を行っています。無償で利用可能ですが、お申し込みが必要です。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net

2008年 7月 29日