三省堂辞書ウェブ編集部によることばの壺

HOMEコラム一覧第五回「リーズ大学の多言語コーパス検索サイト」

ウェブコーパス徹底活用

第五回「リーズ大学の多言語コーパス検索サイト」

筆者: たつを

2007年10月15日

この連載の第二回で紹介した拙作「英語例文検索 EReK」(//erek.ta2o.net/) は、
Web API （ウェブ検索API）を使って、
「ウェブ全体を巨大な一つのコーパスとみなす」ことにより、
コーパス検索を可能にするサービスでした。

今回は、普通のコーパス（ウェブだけではない大量のテキスト）
の検索についてです。

英国のリーズ大学 (University of Leeds) では、
英語、中国語、フランス語、日本語などの様々な言語の
大規模コーパスを作成しています
(参考 //corpus.leeds.ac.uk/list.html)。
ここでは、これらのコーパスを検索するインタフェースについて解説します。

Leeds collection of Internet corpora
//corpus.leeds.ac.uk/internet.html

上記 URL のページで前述の様々な言語のコーパスを検索することができます。
下図は、日本語を指定して単語「けったい」を検索した結果例です。
KWIC （中心に検索キーワードを左右に前後の文脈を配置する表示方式）
で検索結果が表示されます。
ブラウザを最大化して、文字を小さくしてから見ると良いでしょう。