« 明日は何の日:8月13日 - 明日は何の日:8月14日 »

学習者コーパス “NICE” を分析する (2)

2008年 8月 12日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第7回

前回から、NICE を使った学習者の特徴を分析する事例を紹介していますが、今回は、作文テーマの違いが、作文のデータ属性(以下に挙げるような数値化できるデータ)に与える影響について調査した研究について紹介します。

学習者コーパスに含まれるデータは、何らかのテーマに基づいて産出されています。例えば、NICE の場合、学習者は「学校教育」や「スポーツ」などの11個のテーマから1つを選び、その選んだテーマに沿って作文を書いています。その作文のテーマが、作文のデータ属性に影響を与えているのか、それとも、何も影響を与えてないのかどうかを調べてみました。

前回と同様に、NICE に含まれる学習者と母語話者のデータを利用し、「判別分析」という統計手法を用いました。なお、今回使用しているデータは、「学校教育」と「スポーツ」というテーマで書かれた作文のみを対象にしており、学習者と母語話者のそれぞれの作文で、どのような要因によって2つのテーマで書かれた作文が区別されるのかを探りました。この時、要因として取り上げたものは、

の7つです。最後にある、「内容語の比率」というのは、前置詞や代名詞などの「機能語」に対する用語で、動詞や形容詞など、その単語自体で意味を持っている語のことを指しています。

そして、判別分析を行った結果、「一単語に含まれる文字数」が、2つのテーマで書かれた作文を区別する要因として影響することが分かりました。今回の場合は、一単語に含まれる単語数が少ないと「スポーツ」というテーマで書かれた作文として区別されやすく、一方で、一単語に含まれる単語数が多いと「学校教育」というテーマで書かれた作文として区別されやすいことが分かりました。実際に見てみると、「学校教育」というテーマで書いた場合には、responsibility や educational など、10文字以上の単語が多く観察されました。

結論としては、作文に出てくる単語こそ、テーマに影響されることはあるものの、それ以外の要因が影響しないという結果から、作文のテーマは、数値で表すことのできる作文のデータ属性には、ほとんど影響しないということが言えます。大胆に言ってしまえば、学習者コーパスの構築時に、テーマを指定しなくても大きな問題にはならないということです。

しかしながら、前回も述べたように、今回出ている結果は暫定的なものであり、他のテーマとも比較して、同じ結果を導くことができるかどうか、調査を続けることは必要です。

今回は、NICE の分析から、作文テーマが、作文のデータ属性に影響しないという事例を紹介しました。次回以降は、こうしたデータ分析をどのように行うのか、その手法について紹介します。


▼お知らせ
現在、学習者コーパス「NICE」のベータ版配布を行っています。無償で利用可能ですが、お申し込みが必要です。詳しくは、こちらのサイトをご覧ください。なお、9月頃10月頃を目処に、正式版の公開を予定しています。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net

2008年 8月 12日