カテゴリー:未分類
学習者コーパス“NICE”を検索する (6)
2008年 11月 4日 火曜日 筆者: 阪上 辰也学習者コーパス入門 第13回
今回は、NICE に含まれる単語がいくつあるかを数え、どのような単語があるのかを一覧にする方法を説明します。
データの処理にあたっては、「サクラエディタ」(無償)と Microsoft Excel を使用します。Excel を使ってのデータ処理は、単語の一覧を作成する際に必要ですが、この内容は次回で詳しく説明します。
単語を数えるためには、まず、学習者の書いた文だけを抜き出す作業が必要です。この作業については、第10回の記事で説明していますので、詳しくは、そちらをご覧ください(その操作の模様を記録した動画はこちら)。
学習者の文だけを抜き出すことができたら、今度は、1行に1単語だけが並ぶ形に整形する処理を行います。この整形処理ができれば、その処理結果の行数を数えることで、NICE の総単語数(延べ語数)が分かるというわけです。
1行に1単語が並ぶようにするために、空白を目印にして、「その空白を改行に置換する」という作業を行います。なお、今回の処理では、説明を簡潔にするため、縮約形(例:don’t や isn’t など)を1語として扱うことにします。また、ここでは、ピリオドなどの記号類の処理は行わないものとします。
学習者の文だけが残っている状態(参照:第10回の記事)で、さらに置換作業を行います。置換作業の前に、データの冒頭と末端にある日本語文は削除しておきます。その後、「検索」メニューから「置換」を選択します。「置換前」の欄には半角のスペースを1つ入力し、「置換後」の欄には「¥n」と入力します。半角のスペースは、表示されませんが、全角のスペースを間違って入力しないように注意してください。また、「¥n」は、改行を表す正規表現になります。この操作の模様は、こちらの動画を参照してください。
一連の処理を行い、画面左端にある一番最後の行番号を見ると、「70787」となっているはずです。つまり、70787語が、学習者のデータに含まれている単語の総語数ということになります。
今回は、総語数を求めるだけでしたが、次回は、今回の処理結果を活用して、単語の一覧表を作成する方法を説明します。
—
▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。
—
■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net。
— 次のページ »







![『新明解国語辞典 第七版[机上版]』7年ぶりに改訂『新明解国語辞典』の机上版。判型は並判より大きいA5判で、さらに文字が大きく見やすい。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[机上版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kijo.jpg)
![『新明解国語辞典 第七版[小型版]』7年ぶりに改訂『新明解国語辞典』の小型版。並判より一回り小さいA6変型判で、携帯にも便利。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[小型版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kogata.jpg)
![『新明解国語辞典 第七版[革装版]』7年ぶりに改訂『新明解国語辞典』の革装版。丈夫で使うほどに手になじむ。判型は並版・特装版と同じB6判。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[革装版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kawaso.jpg)














































































































































2007年









