« 明日は何の日:9月10日 - 明日は何の日:9月11日 »

学習者コーパス “NICE” を検索する (2)

2008年 9月 9日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第9回

前回から、NICE のデータをどのように加工・検索するのか、その手法を紹介していますが、今回からは、発展的な検索手法を紹介します。

NICE のデータ検索に使うソフトウェアとして、前回に引き続き、「サクラエディタ」(無償)を使用します。

コーパスを検索する時に「正規表現」を知っていると、検索を効率よく行うことができるようになります。正規表現とは、「文字の並び(パターン)を、より少ない文字列で表す表記法」のことです。例えば、コーパスから「computer(s)」という単語を検索するとしましょう。なお、「computer」には、複数形の「computers」もありますから、これも検索の対象とすることにします。

2つの単語をサクラエディタで検索する場合、「computer」と「computers」の2つを個別にそのまま入力して、2回検索を行ってもよいのですが、正規表現を使うと、この2つを記号混じりの「computer[s]?」という12文字で表すことができます。つまり、この12文字で「computer」と「computers」の合計17文字をそのまま入力しているのと同じ状態になり、単純計算ですが、5文字分の入力を減らし、かつ、1回の検索で両方を検索できることになります。

今回も、操作の模様を記録した動画(スクリーンキャスト)を用意しましたので、こちらのリンクをクリックしてください。

まず、検索機能として「Grep」を選択し、検索対象とするファイルやフォルダの設定を行います(参照: 前回の記事)。次に、検索する表現として、「computer[s]?」と入力し、正規表現が機能するように、チェックボックスにチェックがあるかどうかを確認した上で、「検索」のボタンを押します。

検索結果を見ると、1回の検索で、「computer」と「computers」の両方が検索されているはずです。正規表現そのものの解説は省きますが、このように正規表現を使うことで、効率よく検索ができるという一例を示しました。

次回以降も、この正規表現を使いながら、コーパスの検索に役立つ検索手法を紹介します。


▼お知らせ
現在、学習者コーパス「NICE」のベータ版配布を行っています。無償で利用可能ですが、お申し込みが必要です。詳しくは、こちらのサイトをご覧ください。なお、9月頃10月頃を目処に、正式版の公開を予定しています。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net

2008年 9月 9日