« 日独料理法の違い―あく― - 『三省堂国語辞典』のすすめ その84 »

「学習者コーパス入門」修正一覧

2009年 9月 8日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 特別編

「学習者コーパス入門 第31回」でお伝えした通り、これまでの連載での修正点をお知らせします。

第6回
(修正前)
ちなみに、「Token」とは、単語のすべての数を表します。一方で、「Type」は、単語の種類の数を表しています。例えば、apple と apples という2つの単語があった場合、Token としては別々に数えるので、2になりますが、Type としては1つの種類にまとめられるので、1になります。

(修正後)
ちなみに、「token」は具体的な特定の対象を指し、「type」は抽象的で一般的な存在のことを指します。例えば、「This book is mine. That book is yours.」という文があった場合、token の頻度としては、全てを別々に数えるため、8つとなりますが、type の頻度としては、同じ形をした「book」や「is」はまとめられてしまうので、結果的に6つということになります。

第8回
(修正前)
「*」は、どんな文字でもよいことを示す、「正規表現」と呼ばれるものですが、

(修正後)
「*」は、あらゆる文字列のパターンに対応する「ワイルドカード」と呼ばれるものですが、

第17回
(修正前)
そこで、コーパス検索の専用ソフト(WordSmith や AntConc など)を利用するという手段もあります。

(修正後)
もちろん、コーパス検索の専用ソフト(WordSmith や AntConc など)を利用するという手段もあります。

■第17回
(修正前)
UNIX をベースにした主要な OSとして、Linux や Mac OS X があります。

(修正後)
UNIX をベースにした OSには、Mac OS X があり、UNIX を手本にして一から作り上げられた OS として、Linux があります。

第18回
(修正前)
UNIX を使ったデータ処理では、「ターミナル」というソフトを使います。

(修正後)
UNIX を使ったデータ処理では、「端末エミュレータ」というソフトを使います。なお、Mac OS X では、「ターミナル」という名前の端末エミュレータがはじめから使えるようになっています。

■第18回
(修正前)
最後の「*.txt」は、拡張子が TXT になっているものを検索対象にする、という意味です。

(修正後)
最後の「*.txt」は、拡張子が txt になっているものを検索対象にする、という意味です。

第19回
(修正前)
結果として、コマンドを入力した次の行に、3 という数値が表示されているはずです。つまり、JPN001.txt の中には、「I think」というフレーズが3回出現していたということを示しています。

(修正後)
結果として、コマンドを入力した次の行に、3という数値が表示されているはずです。これは、「I think」を含んだ行が3つあったという意味であり、3回出現していたという意味ではありませんので注意が必要です。あくまで、含んでいた「行」の数を数えているだけなので、1行に「I think」が2回出現していても、2と数えられることはありません。したがって、grep コマンドで何か表現を検索した場合には、「数値=出現回数」と考えず、「その行に”少なくとも1つは”検索した表現が含まれている」と考えるようにしてください。

■第19回
(修正前)
ただし、この場合、「it’s」 のような縮約系を含んだ表現はヒットしないため、実際には、複数回検索を繰り返すなど、慎重に検索作業を進める必要があります。

(修正後)
ただし、この場合、「”it」「it’s」「it,」「it:」「it?」のように,it の前後にスペース以外の記号が来る表現はヒットしないため、実際には、複数回検索を繰り返すなど、慎重に検索作業を進める必要があります。(検索を繰り返す代わりに,正規表現で条件を一つにまとめて指定することもできますが,その為にはさらに正規表現について学ぶ必要があります。)

第20回
(修正前)
正規表現が使えるようにするために使うのが、「E オプション」です。

(修正後)
「E オプション」を指定することで、「拡張正規表現」という別の新たな正規表現が利用できるようになります(E は、Extend の E を示す)。

第21回
(修正前)
利用できる正規表現の種類を増やす「E オプション」

(修正後)
「拡張正規表現」という別の新たな正規表現が利用できる「E オプション」

■第21回
(修正前)
grep -v “@” *.txt [Enter キーを押す](※)

(修正後)
grep -v “^@” *.txt [Enter キーを押す](※)

★スクリプトは、本文中に@が含まれる可能性があるため、^ をつけて上記のように修正します。

第22回
(修正前)
tr ‘[A-Z]’ ‘[a-z]’ < JPN001.txt [Enter キーを押す](※)

(修正後)
tr 'A-Z' 'a-z' < JPN001.txt [Enter キーを押す](※)

■第22回
(修正前)
tr [A-Z] [a-z] < JPN001.txt > komoji_001.txt [Enter キーを押す](※)

(修正後)
tr ‘A-Z’ ‘a-z’ < JPN001.txt > komoji_001.txt [Enter キーを押す](※)

★引用符が抜けている。この場合には,引数にスペースが含まれていないので
 引用符がなくてもOKだが,引用符を付けておいた方が無難。

第25回
(修正前)
なお、sort コマンドに付加されている「n オプション」は、数字を比較して並び換えを行うためのオプションで、「r オプション」は、大きい順に並び替えるためのオプションになります。

(修正後)
なお、sort コマンドに付加されている「n オプション」は、数値として比較して並び換えを行うためのオプションで、「r オプション」は、降順に並び替えるためのオプションになります。

謝辞

最後になりますが、今回の修正にあたり、有益なコメントをくださった方、および、連載の機会を与えてくださった三省堂Word-Wise Webの編集スタッフの方々にも、この場をお借りして感謝申し上げます。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。2009年4月9日にはバージョンアップを行い、ver. 1.1 を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net

2009年 9月 8日