« 明日は何の日:6月18日 - 明日は何の日:6月19日 »

学習者コーパス“NICE”の特徴 (2-1)

2008年 6月 17日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第3回

今回は、「NICE」の特徴の2つめに挙げた「データの読みやすさ」について説明します。

一般に、データというのは、「一定の決まり」に従って記録しておく必要があります。つまり、どこにどんな情報を配置しているかを分かるようにしておくということです。こうして決めたデータの記録形式のことを、「フォーマット」と言います。NICE でも、データのフォーマットを決めています。NICE のフォーマットを決めるにあたり、2つの点に配慮しました。1つは、コンピュータによる「データ処理の効率を上げる」こと、もう1つは、人がデータを読む際の「可読性」を高めることです。今回は、前者の「データ処理の効率」を中心に説明します。

まず、「コンピュータを使ってデータを処理する」とは、具体的に何をするのでしょうか。学習者コーパスの場合、各学習者が、どれほど作文を書いたのかを分析することがあります。例えば、ある学習者が、制限時間内(NICE の場合、作文時間は1時間に制限されています)にいくつの文を書くことができたか、という数値を求める場合を考えてみましょう。文の数という数値を求める場合には、予め、「1行に1文」の形でデータを記録しておくと、分析の効率が上がります。

実際の NICE のデータを見てみましょう。次の画像をクリックしてください。

画像の中で、学習者のデータは、行の最初の部分に「*JPNxxx:」と書かれている行(画像の下半分)に記録されています。ですから、この作文の書き手が書いた文の数を求めるには、「*JPN で始まる行がいくつあるのか」を数えればよいわけです。Excel を使う場合は、オートフィルタ機能を使い、*JPN が含まれるデータのみを表示すれば数を求めることができます。また、Mac OS X や Linux ユーザーであれば、grep コマンドと wc コマンドを組み合わせることで、瞬時に行数を求めることができます。このように、データ処理の効率を上げるため、NICE では、1行に1文が並ぶ形式で、学習者の作文データが記録されています。

もし、このデータが、「1文に1行」という形に整形されていなかったとすると、文の句切れ(「.」「!」「?」などの記号類)を自分で探して1つの文に分解する作業から始めなくてはいけません。NICE では、そうした手間を予め省き、効率よくデータ処理ができるような状態でデータが保存されているわけです。

今回は、NICE のデータのフォーマットについて説明しました。NICE で採用したフォーマットは、コンピュータで処理する効率を考えつつ、人が読む時の可読性にも配慮したものになっており、今回は、コンピュータによる処理効率の向上について述べました。次回は、データの「可読性」について説明します。


▼お知らせ
現在、学習者コーパス「NICE」のベータ版配布を行っています。無償で利用可能ですが、お申し込みが必要です。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net


【編集部から】
コーパス言語学の中でも特に注目を集めている学習者コーパスについて、先ごろ英語学習者コーパスNICEを立ち上げたチームの一員である名古屋大学大学院の阪上辰也さんに解説していただきます。

2008年 6月 17日