« 明日は何の日:10月8日 - 明日は何の日:10月9日 »

学習者コーパス “NICE” を検索する (4)

2008年 10月 7日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第11回

本連載の第9回から NICE の発展的な検索手法を紹介していますが、今回は、各データに含まれている個人情報をもとに、データの絞り込みを行う方法を紹介します。

NICE のデータ検索に使うソフトウェアとして、今回も「サクラエディタ」(無償)を使用します。

NICE では、学習者の個人情報をもとにしてデータを選別することができます。例えば、英語の能力試験の結果が記録されていますから、TOEIC のスコアを基準に、データを上級者と中級者に分けることが可能です。もちろん、選別するためには、まず、TOEIC スコアの情報を取得する必要があります。

ここで、実際のデータを見てみましょう。次の画像をクリックしてください。

NICE のファイルの冒頭では、行頭がアットマーク(@)で始まっていることが分かると思います。このアットマークで始まる部分に、学習者の個人情報が含まれています。ここでは、TOEIC スコアを取得しますので、「@Quaification」で始まる行を抽出すればよいということになります。

ここで、エディタの「Grep」機能を使って検索します。「@Quaification」で始まる行は、「TOEIC=700」というように「テスト名=スコア」という形式で記録されているので、検索条件には「TOEIC」という文字を入力し、検索を開始します。その操作の模様は、こちらの動画を参照してください。検索の結果、121件がヒットするはずです。

「Grep」機能による検索を行うと、検索条件が含まれた1行すべてが結果として表示されてしまうため、この処理の後に、前回と同様、不要な情報(行の始めにあるフォルダ名や他の能力テストの情報)を削除し、見やすくなるように整形します。データを整形したら、そのデータを Excel などの表計算ソフトに読み込ませることで、スコア取得者の一覧表を作成し、取得者の平均スコアを算出したり、高いスコアが記録されたデータはどれかを確認したりすることができるようになります。

次回は、スコアの取得後に行うデータの整形作業について説明します。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net

2008年 10月 7日