28ce  Sanseido Word-Wise Web [三省堂辞書サイト] » 学習者コーパス入門のまとめ
« 辞書に登場の人名など - 『三省堂国語辞典』のすすめ その82 »

学習者コーパス入門のまとめ

2009年 8月 25日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第31回

今回は、30回に渡ってお伝えした「学習者コーパス入門」のまとめをしたいと思います。

まず、学習者コーパスとは、外国語を学習する人が、その学んでいる外国語で書いたり話したりしたデータベースのことです。NICE は、「Nagoya Interlanguage Corpus of English」の頭文字を取ったもので、名古屋圏を中心として、英語を学ぶ大学生・大学院生が書いた作文データを集めた学習者コーパスになります。

そして、NICE の特徴として、(1) 詳細な個人情報が記録されていること、(2) データが読みやすい状態で記録されていること、(3) 母語話者による添削文の付与がなされていること、という3点を挙げ、これまでの学習者コーパスでは十分に対応されてこなかった部分を補った新しい学習者コーパスであることを説明しました。

第8回以降では、NICE のデータを実際に検索する方法を説明しました。使うソフトウェアとして、テキストエディタとMicrosoft Excel を利用し、「Grep」による検索や、正規表現を用いた文字列の検索および置換、Excel で利用可能な関数を用いての語数カウントなどの方法を紹介しました。こうした作業は、コーパスの検索ソフトを利用することで、より簡単にできるのですが、敢えて回り道のようなことをしたのは、作業の過程をひとつひとつ知っておくべきという意図があったからです。専用の検索ソフトにあるボタンを押して自動的に結果が表示され、それを疑いもなく利用するというのは、研究調査上、危険な行為であるため、ひとつひとつの作業を細かく説明したわけです。

第17回以降では、UNIX を用いたデータ処理の方法について説明しました。文字によるコマンド入力を通して、大量のデータを瞬時に処理できることを紹介しました。具体的には、検索した文字列を含む行を表示させる「grep」コマンド、文字列の置換を行う「tr」コマンド、数値や文字をある条件で並べ替える「sort」コマンド、重複した行を1行にまとめる「uniq」コマンドと、これらのコマンドの組み合わせ方について説明しました。UNIX による処理は、操作自体が敷居の高いものに感じられますが、コマンドとその機能を学び、処理するパターンを覚えてしまえば、基本的にはどのようなコーパスに対しても応用可能で汎用的な技術であると言えます。

第28回から第30回までは、学習者コーパスの構築方法を説明しました。NICE では、CHAT 形式(Codes for the Human Analysis of Transcript)と呼ばれるフォーマットを採用しており、「1行1文」の状態でデータが記録される点が特徴的であると述べました。特に大事なことは、目的に応じて、どのようなフォーマットを採用すべきかを検討し、そのフォーマットに従ってコーパスを構築するということです。また、同時に、そのフォーマットをマニュアルとして文書化しておき、どのようなフォーマットでデータを構築しているのか、いつでも見直すことができるようにしておくことも大事なことであると述べました。

以上、30回に渡り、学習者コーパスとは何か、検索などのデータ処理をどのように行うのか、どのような点に気をつけてデータを構築したり処理したりすればよいのかを述べてきました。この連載をきっかけに、学習者コーパスを利用した研究調査に関心を持っていただければ幸いですし、実際のデータ処理の一助となれば嬉しく思います。本連載は、今回を一区切りとしまして、お休みとさせていただきます。また、機会がありましたら、コーパスデータの統計処理について説明ができればと思っています。ありがとうございました。


▼お知らせ (1)
過去の記事について、一部を修正いたします。修正点の一覧については、後日、本サイトにてお知らせいたします。


▼お知らせ (2)
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。2009年7月22日にバージョンアップを行い、ver. 1.1.1 に更新されました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net

2b86 2009年 8月 25日
0