UNIX によるコーパスデータの処理 (3)
2009年 2月 10日 火曜日 筆者: 阪上 辰也学習者コーパス入門 第19回
今回は、前回紹介した「grep」コマンドの発展的な使い方を紹介します。
簡単に復習しておきますと、grep コマンドを使うことで、ある(複数の)ファイルを対象として、検索した文字列を含む行を表示させることができます。この grep コマンドには、複数の「オプション」が存在し、そのオプションを利用すると、より高度なデータ処理ができるようになります。今回は、2つのオプションを紹介します。
まず1つめのオプションは、行数をカウントする「c オプション」です。ターミナルを起動し、NICE の学習者の作文データがあるディレクトリ(フォルダ)へと移動した上で、以下のコマンドをターミナルの画面に入力します。なお、オプションは、コマンドと検索文字列の間に、ハイフン付けて入力します。
grep -c “I think” JPN001.txt [Enter キーを押す](※)
結果として、コマンドを入力した次の行に、3 という数値が表示されているはずです。つまり、JPN001.txt の中には、「I think」というフレーズが3回出現していたということを示しています。
今度は、1つのファイルだけでなく、全ファイルを対象に行うと、各ファイルに含まれる「I think」の出現数を数えることができます。以下のコマンドを入力してください。
grep -c “I think” *.txt [Enter キーを押す]
Enter キーを押すとすぐ、JPN001.txt:3、JPN002.txt:3、JPN003.txt:1、というように、各ファイルごとの出現数が表示されます。このように「c オプション」を利用することで、コーパス中に現れる表現の頻度を簡単に数えることができます。
次のオプションは、大文字と小文字を区別せずに検索できる「i オプション」です。例えば、大文字と小文字を区別せずに,「it」をまとめて検索する場合は、以下のようにコマンドを入力することになります。
grep -i ” it ” *.txt [Enter キーを押す](it の前後に、半角スペースを入れてください。)
検索結果が一気に表示されますが、小文字の「it」はもちろんのこと、文頭にある「It」もヒットしていることを確認してください。ちなみに、オプションは、複数のものをまとめて指定することができます。例えば、以下のように、c オプションと i オプションをまとめて指定することで、「it」が各ファイルにどれだけ含まれているかを確認することができます。
grep -ic ” it ” *.txt [Enter キーを押す](it の前後に、半角スペースを入れてください。)
Enter キーを押すとすぐに、JPN001.txt:17、JPN002.txt:3、JPN003.txt:3、というように各ファイルに含まれる「it」の頻度が表示されます。
なお、検索文字列として「it」という短い文字列を指定した場合、「i と t が並んでいるもの」が検索結果として表示されるだけです(つまり、コンピュータは、「it」が代名詞であると理解して、その単語を検索してくれるわけではありません)。さきほど、it の前後に半角スペースを入れたのは、「with」や「Italy」などのように、単語中に it を含むものが結果に混ざらないようにするための対策でした。ただし、この場合、「it’s」 のような縮約系を含んだ表現はヒットしないため、実際には、複数回検索を繰り返すなど、慎重に検索作業を進める必要があります。
次回も、「grep」コマンドのオプションを使ったデータ処理方法を紹介します。
—
▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。
—
■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net。
—
※編集部注
当サイト上ではいわゆる全角の引用符が表示されますが,実際の作業ではいずれもいわゆる半角の引用符を入力します。










































![『三省堂 例解小学漢字辞典 第三版[新装版]』内容豊富。いちばん軽くて、使いやすい! 漢字一覧ポスター・引き方ガイドシートの二大特別付録つき。 『例解小学漢字辞典 第三版[新装版]』](http://dictionary.sanseido-publ.co.jp/dicts/ja/reishokan3_new/img/case_reishokan3_new_thum.jpg)



















































2007年









