学習者コーパス “NICE” を検索する (2)
2008年 9月 9日 火曜日 筆者: 阪上 辰也学習者コーパス入門 第9回
前回から、NICE のデータをどのように加工・検索するのか、その手法を紹介していますが、今回からは、発展的な検索手法を紹介します。
NICE のデータ検索に使うソフトウェアとして、前回に引き続き、「サクラエディタ」(無償)を使用します。
コーパスを検索する時に「正規表現」を知っていると、検索を効率よく行うことができるようになります。正規表現とは、「文字の並び(パターン)を、より少ない文字列で表す表記法」のことです。例えば、コーパスから「computer(s)」という単語を検索するとしましょう。なお、「computer」には、複数形の「computers」もありますから、これも検索の対象とすることにします。
2つの単語をサクラエディタで検索する場合、「computer」と「computers」の2つを個別にそのまま入力して、2回検索を行ってもよいのですが、正規表現を使うと、この2つを記号混じりの「computer[s]?」という12文字で表すことができます。つまり、この12文字で「computer」と「computers」の合計17文字をそのまま入力しているのと同じ状態になり、単純計算ですが、5文字分の入力を減らし、かつ、1回の検索で両方を検索できることになります。
今回も、操作の模様を記録した動画(スクリーンキャスト)を用意しましたので、こちらのリンクをクリックしてください。
まず、検索機能として「Grep」を選択し、検索対象とするファイルやフォルダの設定を行います(参照: 前回の記事)。次に、検索する表現として、「computer[s]?」と入力し、正規表現が機能するように、チェックボックスにチェックがあるかどうかを確認した上で、「検索」のボタンを押します。
検索結果を見ると、1回の検索で、「computer」と「computers」の両方が検索されているはずです。正規表現そのものの解説は省きますが、このように正規表現を使うことで、効率よく検索ができるという一例を示しました。
次回以降も、この正規表現を使いながら、コーパスの検索に役立つ検索手法を紹介します。
—
▼お知らせ
現在、学習者コーパス「NICE」のベータ版配布を行っています。無償で利用可能ですが、お申し込みが必要です。詳しくは、こちらのサイトをご覧ください。なお、9月頃10月頃を目処に、正式版の公開を予定しています。
—
■筆者プロフィール
阪上辰也(さかうえ・たつや)
名古屋大学大学院 国際開発研究科 特任助教。
専門は、コンピュータを利用した外国語教育。
ウェブサイトは、sakauetatsuya.net。







![『新明解国語辞典 第七版[机上版]』7年ぶりに改訂『新明解国語辞典』の机上版。判型は並判より大きいA5判で、さらに文字が大きく見やすい。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[机上版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kijo.jpg)
![『新明解国語辞典 第七版[小型版]』7年ぶりに改訂『新明解国語辞典』の小型版。並判より一回り小さいA6変型判で、携帯にも便利。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[小型版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kogata.jpg)
![『新明解国語辞典 第七版[革装版]』7年ぶりに改訂『新明解国語辞典』の革装版。丈夫で使うほどに手になじむ。判型は並版・特装版と同じB6判。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[革装版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kawaso.jpg)














































































































































2007年









