« 明日は何の日:9月24日 - 明日は何の日:9月25日 »

学習者コーパス “NICE” を検索する (3)

2008年 9月 23日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第10回

前回から、「正規表現」を用いた NICE の発展的な検索手法を紹介していますが、今回は、その正規表現を用いて、学習者の書いた文だけを抜き出す方法を紹介します。

NICE のデータ検索に使うソフトウェアとして、引き続いて、「サクラエディタ」(無償)を使用します。

前回NICE から「computer(s)」という単語を検索しましたが、検索結果には、学習者の書いた文も含まれていますし、学習者の書いた作文(「*JPN」で始まる行に記録)を母語話者が添削した文(「%NTV」で始まる行に記録。以下、「添削文」と呼びます)も含まれていることがわかります。

学習者コーパスの調査では、まず、「学習者が何を書いているのか」を調査することになるので、NICE のデータを検索する際は、母語話者による添削文は検索対象から外す必要があります。ですから、ある表現を検索をする前に、「学習者の書いた文だけを抜き出すと添削文を「別々に分けておく」という処理が必要になります。処理の手順は、以下の2点です。

(1) 学習者の書いた文だけを抜き出す
(2) 不要な情報(話者記号などの学習者の文ではない文字列)を削除する

はじめに、学習者の書いた文だけを抜き出します。学習者の書いた文は、「*JPN」で始まりますから、それを手がかりにして「Grep」検索を行います。その操作の模様は、こちらの動画を参照してください。検索の結果、5464個の文が抜き出されるはずです。

次に、不要な情報を削除します。検索結果には、フォルダの名前(「My Documents」など)や「*JPN」という学習者の文であることを識別するために入力した情報が含まれており、これらは学習者の書いた文ではありませんので削除しておく必要があります。そのため、サクラエディタの「置換」機能を利用し、「*JPN」を含む検索結果の左側に並んでいる情報を一括で削除します。その操作の模様は、こちらの動画を参照してください。

置換の条件を指定する画面では、「置換前」の文字列として、「^.*\*JPN.*\t」と入力し、正規表現を使って学習者の文ではない箇所(文字列)を指定しています。また、「置換後」の文字列には、何も入力しません。「ある文字列を何もないものに置換する=削除」ということになります。なお、置換を実行する前に、「該当行をマーク」というボタンを押せば、どの範囲が置換(今回の場合は、削除)されるのかを確認することもできます(黄色でハイライト表示されます)。

(1) と (2) の一連の操作が成功していれば、学習者の書いた文だけが残っているはずです。あとは、このデータを保存して、語数を数えたり、文の数を数えたり、単語の一覧表を作ったり、さまざまな分析作業を加えていくことになります。

次回以降も、この正規表現などを使いながら、コーパスのデータ処理・検索手法を紹介します。


▼お知らせ
現在、学習者コーパス「NICE」のベータ版配布を行っています。無償で利用可能ですが、お申し込みが必要です。詳しくは、こちらのサイトをご覧ください。なお、10月頃を目処に、正式版の公開を予定しています。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net

2008年 9月 23日