ウェブコーパス徹底活用

第一回「序論:コーパスとしてのウェブ」

筆者:
2007年8月20日

インターネットの発展のおかげで、
調べもの、情報収集が格段に楽になりました。
一昔前は、知ってそうな人を探して聞いてまわったり、
図書館などへ行って調べたり、手間がかかっていたのですが、
今ではウェブ検索サイトに行って検索窓にキーワードを入れるだけです。

それは、
ものすごくたくさんのデータ、ウェブページ上のテキストが
Google などの検索エンジンのサーバに集められていて、
すぐに取り出せる状態になっているからなのです。

このようなウェブ検索が使える今この時代は、
語学、特にインターネットの共通言語と言っても良い英語の
勉強・研究に最適な環境であると言えます。

ウェブ検索は、必要な英語資料を探す、という目的(
リーディング教材としてのニュースサイトや
リスニング教材としてのポッドキャスト・動画サイトなど)にも有用ですが、
やはり一番重要なのは、
ウェブを巨大な英語用例データベースとして無料で手軽に
利用できるようになったという点です。

単語の意味を調べるために辞書を引く、という行為は、
コンピュータがなくても紙の辞書でもできることでした。
しかし、
ありとあらゆる言語表現についての用例を探すということは、
コンピュータがなければほぼ不可能なことだったのです。
それが今やウェブ検索エンジンで誰でも簡単にできるようになったのです。

また、ウェブの世界は今この瞬間にも成長を続けています。
つまり、新しいテキストが、語が、表現が、次々と用例データベースに
追加されている状態なのです。
常に最新の状態なのです。最新の言語表現がつまっているのです。

こんなことは人類史上なかったことです。
これは画期的なことなのです!

というわけで、ちょっと熱くなってしまいましたが、
これから何回かに渡って、
「コーパスとしてのウェブ」をテーマに、
ウェブ検索機能をベースとしたツールを紹介していきます。

その際にポイントとなる技術が Web API です。
これは、ウェブ検索を、
人間ではなくコンピュータプログラムにとって
使いやすくするための技術で、
Google や Yahoo! などのウェブ検索各社が(基本的に無料で)提供しています。
詳細は省きますが、この Web API を用いるとウェブ検索結果を自由自在に、
かつ、簡単に加工することができます。
最近、週末プログラマー、趣味プログラマー、本職プログラマーたちが、
Web API を利用した「言語学習や言語調査に便利なサイト」を
ウェブで公開しています。
次回から順次紹介していきますのでご期待下さい。

なお、コーパスとは、
言語研究などの目的のために大量のテキストを集めたものです。
「検索エンジンのサーバに蓄積されたデータ」は、
ウェブ時代の大規模コーパスと言えます。

筆者プロフィール

たつを

奈良先端科学技術大学院大学卒,工学博士。
専門は自然言語処理技術やテキストマイニング。
ブログ「たつをのChangeLog」を10年以上運営。

編集部から

たつをさんのコラムを全6回の予定で掲載します。次回(第2回)は9月3日(火)に掲載の予定です。ご期待ください。