学習者コーパス“NICE”を検索する (8)
2008年 12月 2日 火曜日 筆者: 阪上 辰也学習者コーパス入門 第15回
今回は、NICE 内の各英文に含まれる単語数をカウントする方法を説明します。
データの処理にあたっては、「サクラエディタ」(無償)と Microsoft Excel(以下、Excel と表記)を使用します。今回の動画では、Excel 2007 という最新版のものを使用していますが、古いバージョンの Excel でも、同じ手順で語数をカウントできます。
まずは、学習者の英文を抜き出す作業を行います。この作業手順については、第10回の記事で既に紹介しています。簡単におさらいをしておきますと、1) Grep 検索により学習者だけの英文を抜き出した後(参照:こちらの動画)、2) 不要な情報(フォルダ名など)を削除します(参照:こちらの動画)。学習者の英文を抜き出すことができたら、「nice_jpn_all.txt」といった名前をつけてデータを保存します。
続いて、保存したテキストファイルを、Excel を使って開きます。無事に開くことができれば、1つのセルに、1つの英文が入った形で表示されているはずです。
ここで、Excel の関数を使って、各文に含まれる単語数をカウントします。使う関数は、LEN・TRIM・SUBSTITUTE という3種類です。A1 のセルに入っている英文の単語数をカウントする場合は、隣のセル(=B1)に「=IF(LEN(TRIM(A1))=0,0,LEN(TRIM(A1))-LEN(SUBSTITUTE(A1,” “,”"))+1)」という式を入力します(※)。残りのセルに、この関数をコピーすれば、各英文の単語数を一気に出すことができます。操作の模様は、こちらの動画を参照してください。
Excel の関数の入力でミスをしなければ、特に操作が困難ということはありません。余力のある方は、最長の英文にはいくつの単語が含まれているか、また、ひとつの英文に含まれる平均単語数を調べてみてください。
—
▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。
—
■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net。
—
※編集部注
当サイト上ではいわゆる全角の引用符が表示されますが,Excelではいずれもいわゆる半角の引用符を入力します。







![『新明解国語辞典 第七版[机上版]』7年ぶりに改訂『新明解国語辞典』の机上版。判型は並判より大きいA5判で、さらに文字が大きく見やすい。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[机上版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kijo.jpg)
![『新明解国語辞典 第七版[小型版]』7年ぶりに改訂『新明解国語辞典』の小型版。並判より一回り小さいA6変型判で、携帯にも便利。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[小型版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kogata.jpg)
![『新明解国語辞典 第七版[革装版]』7年ぶりに改訂『新明解国語辞典』の革装版。丈夫で使うほどに手になじむ。判型は並版・特装版と同じB6判。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[革装版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kawaso.jpg)














































































































































2007年









