« 明日は何の日:10月16日 - 明日は何の日:10月17日 »

リーズ大学の多言語コーパス検索サイト

2007年 10月 15日 月曜日 筆者: たつを

ウェブコーパス徹底活用 第五回「リーズ大学の多言語コーパス検索サイト」

この連載の第二回で紹介した拙作「英語例文検索 EReK」(http://erek.ta2o.net/) は、
Web API (ウェブ検索API)を使って、
「ウェブ全体を巨大な一つのコーパスとみなす」ことにより、
コーパス検索を可能にするサービスでした。

今回は、普通のコーパス(ウェブだけではない大量のテキスト)
の検索についてです。

英国のリーズ大学 (University of Leeds) では、
英語、中国語、フランス語、日本語などの様々な言語の
大規模コーパスを作成しています
(参考 http://corpus.leeds.ac.uk/list.html)。
ここでは、これらのコーパスを検索するインタフェースについて解説します。

Leeds collection of Internet corpora
http://corpus.leeds.ac.uk/internet.html

参考図(クリックで拡大):
サムネイル

上記 URL のページで前述の様々な言語のコーパスを検索することができます。
下図は、日本語を指定して単語「けったい」を検索した結果例です。
KWIC (中心に検索キーワードを左右に前後の文脈を配置する表示方式)
で検索結果が表示されます。
ブラウザを最大化して、文字を小さくしてから見ると良いでしょう。

各言語のコーパスは単語レベルの言語解析
(日本語だと「茶筌」による形態素解析)がされており、
コーパス検索結果の単語の上にマウスカーソルを乗せると、
品詞などの単語情報を見ることができます。
下図は、日本語と英語での例です。

また、品詞指定など検索時に細かい指定ができます。
Help ページ (http://corpus.leeds.ac.uk/help.html) をご覧下さい。

ということで、
ウェブページそのものではなく、
しっかりと収集されたコーパスを検索できるサイトの一つとして、
リーズ大学の多言語コーパス検索サイトを紹介しました。
いろんな言語を同時に学びたい人にぴったりかもしれませんね。


■筆者プロフィール

たつを

奈良先端科学技術大学院大学卒,工学博士。
専門は自然言語処理技術やテキストマイニング。
ブログ「たつをのChangeLog」を10年以上運営。

◆編集部より:たつをさんのコラムを全6回で掲載します。前回(第4回)は10月1日の掲載でした。次回(最終回)は10月29日(月)に掲載の予定です。ご期待ください。

2007年 10月 15日