リーズ大学の多言語コーパス検索サイト
2007年 10月 15日 月曜日 筆者: たつをウェブコーパス徹底活用 第五回「リーズ大学の多言語コーパス検索サイト」
この連載の第二回で紹介した拙作「英語例文検索 EReK」(http://erek.ta2o.net/) は、
Web API (ウェブ検索API)を使って、
「ウェブ全体を巨大な一つのコーパスとみなす」ことにより、
コーパス検索を可能にするサービスでした。
今回は、普通のコーパス(ウェブだけではない大量のテキスト)
の検索についてです。
英国のリーズ大学 (University of Leeds) では、
英語、中国語、フランス語、日本語などの様々な言語の
大規模コーパスを作成しています
(参考 http://corpus.leeds.ac.uk/list.html)。
ここでは、これらのコーパスを検索するインタフェースについて解説します。
Leeds collection of Internet corpora
http://corpus.leeds.ac.uk/internet.html
参考図(クリックで拡大):

上記 URL のページで前述の様々な言語のコーパスを検索することができます。
下図は、日本語を指定して単語「けったい」を検索した結果例です。
KWIC (中心に検索キーワードを左右に前後の文脈を配置する表示方式)
で検索結果が表示されます。
ブラウザを最大化して、文字を小さくしてから見ると良いでしょう。
各言語のコーパスは単語レベルの言語解析
(日本語だと「茶筌」による形態素解析)がされており、
コーパス検索結果の単語の上にマウスカーソルを乗せると、
品詞などの単語情報を見ることができます。
下図は、日本語と英語での例です。


また、品詞指定など検索時に細かい指定ができます。
Help ページ (http://corpus.leeds.ac.uk/help.html) をご覧下さい。
ということで、
ウェブページそのものではなく、
しっかりと収集されたコーパスを検索できるサイトの一つとして、
リーズ大学の多言語コーパス検索サイトを紹介しました。
いろんな言語を同時に学びたい人にぴったりかもしれませんね。
—
■筆者プロフィール
たつを
奈良先端科学技術大学院大学卒,工学博士。
専門は自然言語処理技術やテキストマイニング。
ブログ「たつをのChangeLog」を10年以上運営。
◆編集部より:たつをさんのコラムを全6回で掲載します。前回(第4回)は10月1日の掲載でした。次回(最終回)は10月29日(月)に掲載の予定です。ご期待ください。
2007年 10月 15日







![『新明解国語辞典 第七版[机上版]』7年ぶりに改訂『新明解国語辞典』の机上版。判型は並判より大きいA5判で、さらに文字が大きく見やすい。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[机上版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kijo.jpg)
![『新明解国語辞典 第七版[小型版]』7年ぶりに改訂『新明解国語辞典』の小型版。並判より一回り小さいA6変型判で、携帯にも便利。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[小型版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kogata.jpg)
![『新明解国語辞典 第七版[革装版]』7年ぶりに改訂『新明解国語辞典』の革装版。丈夫で使うほどに手になじむ。判型は並版・特装版と同じB6判。2色刷。紙面内容は並版と同一。 『新明解国語辞典 第七版[革装版]』](http://dictionary.sanseido-publ.co.jp/wp-images/smk_kawaso.jpg)























































































































































2007年









