ウェブコーパス徹底活用

第二回「英語例文検索 EReK」

筆者:
2007年9月3日

ウェブ検索で英単語や英語表現を検索し、
実際の使われ方を調べるという行為は、
ウェブ検索が登場した当初から盛んでした。
私も90年代中ごろ、英語論文と格闘するときによくやってました。

それを思い出して私が作ったサービスが
「英語例文検索 EReK」(//erek.ta2o.net/)です。

米 Yahoo! が提供している Web API(ウェブ検索API)を使っています。
ウェブ全体を巨大な一つのコーパスとみなして、
入力された英語表現(キーワード)の実際の使われ方を提示するサイトです。

実際の検索例を挙げておきます。”made from” で調べた結果です。
なお、ブラウザの幅は「最大」にして使うことをオススメします。

(図:検索例)

検索例

EReK のポイントは二つあります。
まず一つめは、KWIC と呼ばれる表示方式です。
KWIC とは “KeyWord In Context” の略で、
中心に検索キーワード、左右に前後の文脈(コンテキスト)を配置することで、
複数の用例を見やすく並べることができます。
コーパス検索システムでよく採用されているインタフェースで、
言語の使われ方をブラウズするのに非常に便利です。

EReK ではキーワードの前後のコンテキストをそれぞれアルファベット順に
ソート(並び替え)でき、類似のコンテキストをまとめることができます。
「キーワードの後ろにどんな単語が来やすいのか」だけでなく
「キーワードの後ろにこの単語が来たら、次にどんな単語が来やすいのか」
といった要求にも答えることができます。

もう一つのポイントは、検索範囲の指定です。
例えば、医学系の単語・表現ならば、
医学関連の英語サイトの中から用例を検索すればノイズも減って良いですよね。

EReK では、将来はこのようなことができるように、
ユーザによる検索範囲指定カスタマイズ機能を用意する予定なのですが、
現在は未提供です。
そのかわり、最低限の範囲指定機能として、
下記の三つの中から選択できるようにしています。

(1) ウェブ全体、
(2) edu ドメイン(教育機関など)のサイトのみ、
(3) ニュースサイト(CNN, ABCなど)のみ。

ウェブ全体だと検索する表現によってはネイティブでない人のテキストがほとんど
だったりすることもあります。
適宜選択して活用していただけると良いかと思います。

以上、EReK の二つのポイントでした。

ところで、先日、日本で働いている英語圏の方に意見をうかがったところ、
「日本語版も作って欲しい!私にとってはそっちの方が必要!」
との要望を頂きました。
カスタマイズ機能もそうですが、
じわじわと実装していきたいと思っておりますので、
今後ともよろしくお願いします。

次回も EReK のようにウェブ検索機能を活用した便利ツールを紹介します。

筆者プロフィール

たつを

奈良先端科学技術大学院大学卒,工学博士。
専門は自然言語処理技術やテキストマイニング。
ブログ「たつをのChangeLog」を10年以上運営。

編集部から

たつをさんのコラムを全6回で掲載します。第1回は8月20日の掲載でした。次回(第3回)は9月18日(火)に掲載の予定です。ご期待ください。