学習者コーパス“NICE”を検索する (5)
2008年 10月 21日 火曜日 筆者: 阪上 辰也学習者コーパス入門 第12回
今回は、前回の予告通り、NICE に含まれるスコアのデータを取得した後で行う、データの整形作業について説明します。
NICE のデータ処理に使うソフトウェアとして、今回も引き続き「サクラエディタ」(無償)を使用します。
前回までの作業は、エディタの「Grep」機能を使い、「TOEIC」という文字を検索して、TOEIC のスコアが含まれている行を抽出するというものでした(この作業の動画はこちら)。
検索結果を見ると、フォルダの名前や他のテストの結果など、不要な情報が含まれていることが分かります。そこで、今回は、エディタの「置換」機能を利用して、不要な情報を削除し、必要な情報を残すことにします。ここでは、必要な情報として、1) 学習者の ID 番号、2) TOEIC というテスト名、そして、3) TOEIC のスコアの3つを残します。
「Grep」機能で TOEIC スコアを含む行を抽出した後で、「置換」機能を選択し、置換前の文字列として「.*?(JPN…).*?(TOEIC)=(…).*」を入力し、置換語の文字列として「\1\t\2\t\3」を入力します。この置換処理により、不要な情報が削除され、「JPNxxx [タブ] TOEIC [タブ] yyy」という具合に、必要な3つの情報だけが残されているはずです。その操作の模様は、こちらの動画を参照してください。
あとは、この結果のデータをコピーし、Excel のワークシートへ貼りつければ、各情報が3列になって表示されるはずです。(もし1つのセルに3つの情報がコピーされてしまうなど、上手くいかない場合は、「テキスト ファイル ウィザード」を利用し、タブを区切り文字とすることで、コピー時のエラーを回避できます。)
前回紹介した作業と今回の作業を行えば、スコア取得者の一覧表が出来上がることになります。一覧表ができたら、取得者の平均スコアや標準偏差なども算出してみてください。
次回は、単語数の求め方について説明します。
―
▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。
―
■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net。







![『新明解国語辞典 第七版[机上版]』7年ぶりに改訂『新明解国語辞典』の机上版。判型は並判より大きいA5判で、さらに文字が大きく見やすい。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[机上版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kijo.jpg)
![『新明解国語辞典 第七版[小型版]』7年ぶりに改訂『新明解国語辞典』の小型版。並判より一回り小さいA6変型判で、携帯にも便利。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[小型版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kogata.jpg)
![『新明解国語辞典 第七版[革装版]』7年ぶりに改訂『新明解国語辞典』の革装版。丈夫で使うほどに手になじむ。判型は並版・特装版と同じB6判。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[革装版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kawaso.jpg)














































































































































2007年









