« ダサイ話でごめんなさい - 『三省堂国語辞典』のすすめ その52 »

UNIX によるコーパスデータの処理 (2)

2009年 1月 27日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第18回

まず、簡単にLinuxのインストール方法を紹介します。

作業環境として、Windows マシンを利用されている方が多いかと思いますので、ここでは、Windows を起動している状態で、同時に Linux を起動するための方法を簡単に説明します。必要なものは、Linux という OS そのものと、Windows 上で Linux を起動させるためのソフトウェアの2つです。

Linux も、その Linux を動作させるためのソフトウェアも、無償で利用できるものがありますので、それらをダウンロードして利用します。インストール方法については、Web上に多数情報があります。一例として、Ubuntu という名前の Linux を、VMware Player というソフトを使って動作させるまでの過程を説明したページにリンクしておきますので、参考にしてください(インストール前には、データのバックアップ作業をお忘れなく)。なお、Mac OS X の場合は、OS の基礎部分が UNIX ですので、特別なソフトをインストールする必要はなく、すぐに UNIX 環境で作業をすることができます。

ここからは、UNIX の利用環境が整っている前提で話を進めます。筆者の環境は、Mac OS X (10.5.6) ですので、その環境下での操作法を説明しますが、Linux のような他の UNIX システムでも、同様の操作が可能なはずです。

UNIX を使ったデータ処理では、「ターミナル」というソフトを使います。Mac OS X の場合、「アプリケーション」フォルダを開き、「Utilities」フォルダー内にある「ターミナル」アイコンをダブルクリックすると、ソフトが起動し、以下のようなウィンドウが現れます。この「ターミナル」の画面に、さまざまなコマンドを入力し、データ処理を行うことになります。

Windows の操作法と最も異なるのは、「コマンドを”文字”で入力する」点です。この点がとても難解に思えて手を出せないという方もいるようですが、コーパス処理に必要なコマンドは、およそ20個程度です。この連載の中でも説明していきます。今回は、最も手軽な検索手法として、サクラエディタでも利用した「Grep」機能を持つ「grep」コマンドを紹介します。grep コマンドは、「指定された文字列を含む行を表示する」というコマンドです。

まずは、NICE のデータがある場所まで移動します。そのために、ターミナルの画面に

cd Desktop/nice_ver1_0/nns

と入力して [return] キーを押します。UNIX では、フォルダ(=ディレクトリとも言います)への移動にもコマンドが必要になります。この時に使うのが、「cd」というコマンドです。これは、「Change Directory」に由来していて、ディレクトリの移動時に使うコマンドです。

上記のコマンドを入力すると、デスクトップ上にある nice_1_0 という NICE のフォルダへ移動し、さらに、その中にある「nns」フォルダの中へ移動したことになります。Windows であれば、フォルダをダブルクリックして、見た目にもフォルダを開いている感覚が得られますが、UNIX では、現在位置を知らせる文字情報しか表示されませんので、この無機質さに慣れるのには、少し時間がかかるかもしれません。

学習者のデータが入った「nns」フォルダに移動することができたら、今度は、

grep “I think” *.txt

とターミナルの画面に入力して [return] キーを押します。「grep」コマンドを使い、「I think」という表現を検索する個アンドです。最後の「*.txt」は、拡張子が TXT になっているものを検索対象にする、という意味です。すると、「I think」が含まれた行が一気に表示されるはずです。一連の操作の模様は、こちらの動画を参照してください。

次回も、「grep」コマンドを使ったデータ処理方法を紹介します。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net

2009年 1月 27日