学習者コーパスの構築方法 (3)
2009年 7月 28日 火曜日 筆者: 阪上 辰也学習者コーパス入門 第30回
今回は、データの記録におけるトラブルを紹介します。
前回の記事で、コーパスの構築においては、「フォーマット」を決めておく必要があると述べました。今回は、そのフォーマットに従わなかったことで生じるトラブルを2つ紹介します。1つは「全角文字」によるトラブル、もう1つは「文字コード・改行コード」によるトラブルです。
まず、「全角文字」によるトラブルとして、英文データに全角文字が混ざってしったことで、実行したいコマンドやプログラムが動作しなかったというものがあります。日本人英語学習者の場合、日頃は、全角文字である日本語を入力しています。必要に応じて半角文字に切り替えて入力するわけですが、英文の入力中、気づかぬ間に全角のスペースを入力してしまい、データ処理する際に初めて全角のスペースが混ざっていたことが分かるということも少なくありません。
また、全角文字のスペース以外にも、アポストロフィやダブルクオーテーションマークが全角で記録されているという事例もあります。NICE のデータを収集した際は、Microsoft Word というワープロソフトを使用して、作文をしてもらいました。この時、プレーンテキストのファイルとして保存しなおすために、Microsoft Word のファイルからデータをそのままコピーして貼り付けると、入力された記号類は全角文字として貼り付けられてしまいます。この状態でデータ処理を行おうとした場合、処理上のエラーが生じてしまいます。例えば、語数を適切に数えられなくなったり、不要な記号類の削除をする際、削除できずに残ってしまったりするなどのトラブルが生じます。このようなトラブルを避けるために、全角文字を半角文字に置換する作業が必要になります。具体的には、テキストエディタにある置換の機能を利用するか、プログラムを書いて置換することになります。
続いて、「文字コード・改行コード」によるトラブルとして、文字化けや、1行としての処理を行うことができないといったものがあります。文字コードについては、アルファベットの場合、文字化け等の心配はありません。しかし、例えば、学習者の特定のデータについて、コメントなどを日本語で書き添えておく場合には、予め文字コードの統一をしておく必要があります。統一しなかった場合には、開くファイルにより文字コードが異なってしまい、文字化けが生じやすくなりますし、作業上の混乱をまねくおそれもあります。
また、改行コードについてですが、その種類は、Windows 用・Mac 用・UNIX 用の主に3つがあります。これらを区別をしないままデータを記録すると、見た目が1行になっている文でも、改行コードが異なっていることで、その行の次に続くデータと勝手に連結されてしまうといったトラブルが生じます。そのため、エディタなどの処理ツールが、どの文字コード・改行コードで処理をしているか、またデータの保存時に、文字コード・改行コードが統一されているかを確認しておくことが必要です。
以上、記録におけるトラブルを紹介してきましたが、大事なことは、先週と同様に、構築時にデータ記録に関わるフォーマットしっかりと定めておくことです。また、同時に、そのフォーマットをマニュアルとして文書化しておき、どのようなフォーマットでデータを構築しているのか、いつでも見直すことができるようにしておくことも大事なことです。
—
▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。2009年7月22日にはバージョンアップを行い、ver. 1.1.1 に更新されました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。
—
■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net。










































![『三省堂 例解小学漢字辞典 第三版[新装版]』内容豊富。いちばん軽くて、使いやすい! 漢字一覧ポスター・引き方ガイドシートの二大特別付録つき。 『例解小学漢字辞典 第三版[新装版]』](http://dictionary.sanseido-publ.co.jp/dicts/ja/reishokan3_new/img/case_reishokan3_new_thum.jpg)



















































2007年









