UNIX によるコーパスデータの処理 (1)

2009年 1月 13日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第17回

今年から、UNIX を用いた基本的なコーパス処理の方法を紹介します。今回は、UNIX によるデータ処理の必要性を説明します。

これまで、OS として Windows がインストールされたコンピュータ上での処理を前提とし、「サクラエディタ」(無償)や Microsoft Excel などを利用したデータの処理方法を紹介してきました。

しかし、コーパスのデータ規模が大きくなり、自分の調査目的に応じた処理を行おうとした場合、エディタなどの既存のソフトだけを利用していたのでは、十分に対応することができなくなります。学習者コーパスは、今後、データ量が増えるものと予想され、大規模なデータになればなるほど、ソフトによるデータ処理は困難になります。

そこで、コーパス検索の専用ソフト(WordSmithAntConc など)を利用するという手段もあります。実際、専用のソフトをお使いの方も多いかと思います。しかし、専用のソフトを使うと、大規模なデータこそ扱えるようになるものの、ソフト内でどのような処理が行われているかが「ブラックボックス化」してしまいます。例えば、あるソフトが、「up-to-date」という表現を、1つの単語としてカウントしているのか、3つの単語としてカウントしているのかは、マニュアルなどを見て、処理の基準について確認する必要があります。ソフトを使った処理に頼り過ぎてしまうと、こうした処理に関する過程を見落としがちになります。

以上のことから、大量のデータに対して、調査目的に応じた自由な処理を行うため、また、データ処理の過程を知るためにも、「UNIX」を使ったテキスト処理の方法を学ぶことが必要になると考えています。UNIX とは OS の一種で、UNIX 上で利用可能な「コマンド」(=コンピュータに対する命令)を入力することで、大量のデータを「高速に処理する」ことができるようになります。UNIX をベースにした主要な OSとして、Linux や Mac OS X があります。Windows がインストールされたコンピュータ上でこれらの OS を動作させることもできますが(Mac OS X は除く)、できれば、処理用のコンピュータがもう1台あるとよいでしょう。最近では、これらの OS がインストールされたコンピュータも手に入れやすくなりました(Linux がインストールされたコンピュータならば、5万円程度で入手可能)。

次回から、この UNIX による具体的な処理方法を紹介します。慣れるまでには少し時間がかかると思いますが、UNIX によるデータ処理方法を身に付ければ、処理の自由度が増し、高速で効率的な処理ができるようになりますので、コーパスを使った言語調査を行おうという方は、これを機にぜひ挑戦してみてください。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net


« 前のページ次のページ »