« 明日は何の日:11月19日 - 明日は何の日:11月20日 »

学習者コーパス“NICE”を検索する (7)

2008年 11月 18日 火曜日 筆者: 阪上 辰也

学習者コーパス入門 第14回

今回は、NICE に含まれる単語の一覧表を作成する方法を説明します。

データの処理にあたっては、「サクラエディタ」(無償)と Microsoft Excel(以下、Excel と表記)を使用します。今回の動画では、Excel 2007 という最新版のものを使用していますが、古いバージョンでも同じ手順で、一覧表を作成することができます。

まずは、前回行った作業に加えて、記号類の削除をする処理を行います。今回は、ピリオド、コンマ、クエスチョン・マーク、エクスクラメーション・マーク、そして括弧の5種類を削除します。サクラエディタで、検索メニューから置換機能を選択し、置換前の欄には、「[\.\,\?\!\(\)]」を入力します。今は、削除の処理を行うので、置換後の欄には何も入力しません。正規表現の使用に関するオプションにチェックが入っているかどうかを確認し、「すべて置換」のボタンを押すと、5種類の記号が削除されます。

記号類の削除を行った後で、「nice_all.txt」といった名前をつけてデータを保存します。次に、このファイルを、Excel を使って開きます。無事に開くことができれば、1つのセルに、1つの単語が入った形で表示されているはずです。

まずは、単語をアルファベット順に並べ替えます。Excel のメニューから、「データ」→「並び替え」を選択し、昇順で並び替えます。処理が終わると、数字が一番上に並んでいて、その後を見ると「a」などが見つかるはずです。その後、単語の右隣のセルを選択し、COUNTIF という関数を使って、単語の頻度を求めます。例えば、A2 のセルにある単語の頻度を数えるには、B2 のセルに、「=COUNTIF(A:A,A2)」と入力します。この場合、「A の列に A2 に含まれる文字列があったらすべて数えなさい」という命令になっています。残りのセルに、この関数をコピーすれば、各単語の頻度を一気に出すことができます。

最後に、単語と頻度が重複している行を隠して見えないようにします。「データ」→「フィルタ」→「詳細設定」を選択します。ウィンドウの下に、「重複するレコードを無視する」というオプションがありますので、ボックス内にチェックを入れてから、「OK」ボタンを押します。すると、重複している行が消えて(正確には、非表示の状態になっています)、各単語とその頻度の一覧が表示されます。最後に、この一覧をコピーして、別のワークシートにコピーして貼りつければ、単語の一覧表が完成します。この操作の模様は、こちらの動画を参照してください。

Excel の操作が少し難しいかもしれませんが、並び替え、関数、フィルタリングという3つの機能を順番に使うだけですので、動画を見ながらゆっくりと操作すれば、単語の一覧表を作成することができますので、ぜひ試してみてください。


▼お知らせ
2008年10月4日に、学習者コーパス「NICE」の正式版を公開しました。無償で利用可能で、特別な手続きは必要ありませんので、ぜひ研究調査にご利用ください。詳しくは、こちらのサイトをご覧ください。


■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net

2008年 11月 18日