« ドイツ料理の言葉(3)―「とろみ」1― - 『三省堂国語辞典』のすすめ その72 »

UNIX によるコーパスデータの処理 (11)

2009年 6月 16日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第27回

今回は、UNIX によるコーパスデータの処理についてのまとめです。

第17回から、前回の第26回にわたり、UNIX を用いた基本的なコーパス処理の方法を紹介してきました。grep や wc などのコマンドを利用することで、学習者コーパスの分析でよく行われる語数や文の数のカウントが効率よく行えることを説明しました。

学習者コーパスに限ったことではなく、コーパスの分析においては、「テキスト処理」がほぼ必須の作業であると言えます。そして、調査の目的に応じて、不要な情報の削除や分析の効率を上げるための置換といった、データの整形処理を行うことになります。

第17回の記事でも少し触れましたが、幸いなことに、コーパス検索のためのソフトウェアがインターネット上で入手できます。実際のところ、これまでに紹介した処理は、決して楽なものではありませんから、データ処理に不慣れな場合、その過程を飛ばすことのできるソフトウェアは、とても有用なもののように思えます。しかし、その過程を飛ばしてしまったばかりに、コーパス中の不要な情報を削除しないまま総語数をカウントしたり、検索条件の不備があったせいで検索漏れが生じたりするなど、誤った処理結果を導くことになりかねません。

コーパスデータの処理において大事なことは、「処理過程を明らかにすること」です。処理過程が明らかになってさえいえば、仮に間違った処理を行っていても、その誤りに気づいた人がその問題点を指摘し、解決に至ることができます。しかし、その過程を明らかにしない、あるいは、検索ソフトによって、処理過程を「ブラックボックス化」させてしまった場合には、その処理に問題があるかどうかが判断できないため、結果として、算出された数値や分析内容に対する信頼性が揺らいでしまいます。

現在、様々なコーパスが存在しますが、そのデータ形式もまた様々であり、個々のコーパスに応じたデータ処理が求められます。つまり、検索ソフト1つだけでは、しっかりとした調査を行うことは難しいのが現状です。しかし、UNIX のコマンドを使った基本的で汎用性のある処理技術を身につけることで、NICE だけでなく、他のコーパス処理にも応用できるようになり、過程を明らかにしながら調査を進めることができるようになります。これを機に、UNIX のコマンドを使ったコーパスデータの処理を始める方が増え、データ処理に関する情報共有が広くなされることを願っています。

次回は、学習者コーパスの構築方法とその問題点を扱います。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。2009年4月9日にはバージョンアップを行い、ver. 1.1 に更新されました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net

2009年 6月 16日