学習者コーパス “NICE” を検索する (4)
2008年 10月 7日 火曜日 筆者: 阪上 辰也学習者コーパス入門 第11回
本連載の第9回から NICE の発展的な検索手法を紹介していますが、今回は、各データに含まれている個人情報をもとに、データの絞り込みを行う方法を紹介します。
NICE のデータ検索に使うソフトウェアとして、今回も「サクラエディタ」(無償)を使用します。
NICE では、学習者の個人情報をもとにしてデータを選別することができます。例えば、英語の能力試験の結果が記録されていますから、TOEIC のスコアを基準に、データを上級者と中級者に分けることが可能です。もちろん、選別するためには、まず、TOEIC スコアの情報を取得する必要があります。
ここで、実際のデータを見てみましょう。次の画像をクリックしてください。
NICE のファイルの冒頭では、行頭がアットマーク(@)で始まっていることが分かると思います。このアットマークで始まる部分に、学習者の個人情報が含まれています。ここでは、TOEIC スコアを取得しますので、「@Quaification」で始まる行を抽出すればよいということになります。
ここで、エディタの「Grep」機能を使って検索します。「@Quaification」で始まる行は、「TOEIC=700」というように「テスト名=スコア」という形式で記録されているので、検索条件には「TOEIC」という文字を入力し、検索を開始します。その操作の模様は、こちらの動画を参照してください。検索の結果、121件がヒットするはずです。
「Grep」機能による検索を行うと、検索条件が含まれた1行すべてが結果として表示されてしまうため、この処理の後に、前回と同様、不要な情報(行の始めにあるフォルダ名や他の能力テストの情報)を削除し、見やすくなるように整形します。データを整形したら、そのデータを Excel などの表計算ソフトに読み込ませることで、スコア取得者の一覧表を作成し、取得者の平均スコアを算出したり、高いスコアが記録されたデータはどれかを確認したりすることができるようになります。
次回は、スコアの取得後に行うデータの整形作業について説明します。
—
▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。
—
■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net。







![『新明解国語辞典 第七版[机上版]』7年ぶりに改訂『新明解国語辞典』の机上版。判型は並判より大きいA5判で、さらに文字が大きく見やすい。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[机上版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kijo.jpg)
![『新明解国語辞典 第七版[小型版]』7年ぶりに改訂『新明解国語辞典』の小型版。並判より一回り小さいA6変型判で、携帯にも便利。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[小型版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kogata.jpg)
![『新明解国語辞典 第七版[革装版]』7年ぶりに改訂『新明解国語辞典』の革装版。丈夫で使うほどに手になじむ。判型は並版・特装版と同じB6判。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[革装版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kawaso.jpg)














































































































































2007年









