« 脳梗塞(のうこうそく) - 『三省堂国語辞典』のすすめ その74 »

学習者コーパスの構築方法 (1)

2009年 6月 30日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第28回

今回から、学習者コーパスの構築方法とその問題点について説明します。

NICEICLE など、配布されている学習者コーパスを利用する側ではなく、構築する側となった場合、どのような手順でデータを構築するべきか、その方法を紹介します。今回は、1) データ提供者の募集、2) 収集活動の主な流れ、3) 書かれた作文データの著作権委譲について述べます。

なんといっても、学習者コーパス構築は、データ提供者となる学習者がいなければ始まりません。NICE 構築時には、「英語学習者がどのように英語の文章を書くかを分析するため」という目的を説明した文書(チラシ)を作成し、それを配布して提供者を集めました。その文書には、目的以外に、実際の活動とその手順、所要時間、謝礼の内容、連絡先を記しておき、より具体的な情報を与えるように努めました。

収集活動の主な流れとして、まずは、学習者に対して、活動内容の説明と作文時の注意事項(例:辞書を見てはいけない、作文は完結させるようにする、など)を説明します。続いて、著作権委譲のための契約書(後述)へのサインを行い、作文の基本的な構成法と 作文時に使用する Microsoft Word の基本的な使い方を説明します(15分間)。説明終了後に、実際に作文を書き(1時間)、最後に、学習者個人の情報について尋ねるアンケートの実施と謝礼受け渡しを行います(15分間)。すべての活動が終了するのにかかった時間は、およそ1時間半でした。説明の内容はなるべく簡潔にし、時には学習者からの質問を受けて疑問を解消させ、作文に集中できるように配慮する必要があります。

公開を前提とした学習者コーパス構築にあたっては、作文をしてもらう学習者に、「著作権の委譲」について同意を得ることが必要になります。この手続きは、データを公開する場合に、最も重要なものとなります。著作権委譲に関わる手続きを忘れると、データが公開できなくなってしまいます。データがあれば、分析こそ行うことができますが、公開ができなければ、他の研究者が利用して分析することはもちろん、集めた側が行った分析結果を再現することもできなくなります。どのようなデータを使っているかが分からない状態で、何らかの結果だけを示されたとしても、その後の研究の発展は望めません。したがって、(少なくとも日本国内で収集する場合、)この著作権委譲の手続きは、学習者コーパス構築時の必須の手続きと言えるでしょう。

NICE 構築にあたっては、実際に学習者に作文をしてもらう前に、契約書を作成し、その契約書に署名をしてもらいました。この手続きは、データを公開する場合に、最も重要なものとなります。なお、学習者が未成年の場合、契約書を有効なものとするために、本人だけでなく、親権者の同意も必要となりますので、注意が必要です。なお、実際に使用した契約書は、こちらのリンク(PDF, 80KB)をクリックすると読むことができます。

次回は、データの記録方法について説明します。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。2009年4月9日にはバージョンアップを行い、ver. 1.1 に更新されました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net

2009年 6月 30日