カタカナから英語スペルを調べる「うろぼえ」

2007年 10月 1日 月曜日 筆者: たつを

ウェブコーパス徹底活用 第四回 カタカナから英語スペルを調べる「うろぼえ」

英文を書くときに悩むのが、英語のスペルです。

ワードをはじめ、
多くのエディタソフトには英語のスペルチェック機能がついており、
だいたいの綴りが分かれば正しい綴りが分かったりします。
「Lだっけ、Rだっけ?」程度の曖昧さなら、
とりあえず入力してみれば何とかなります。

しかし、全体的に曖昧な綴りってありますよね?
発音は分かるんだけど英語で書こうとすると、
まったく分からなくなる単語ってありませんか?
英語から見ての外来語などの多くがこれですね。
そういう単語って「発音」が頭の中にカタカナ化されて格納されているので、
英語で書こうとするときにものすごく悩みます。

そういうときに便利なのが「うろぼえ」です。
「うろぼえ」はカタカナ表記から元の英単語スペルを調べるサービスです。

uroboe うろぼえ - うろおぼえなカタカナ単語から英単語のスペルを探すよ
http://uroboe.seewee.net/


英文校正サイトNativeChecker

2007年 9月 18日 火曜日 筆者: たつを

ウェブコーパス徹底活用 第三回「英文校正サイトNativeChecker」

今回は、英作文に役立つ英文校正ツールの紹介です。

英作文で一番やっかいなのは on, with, for, of などの前置詞です。
受験勉強で散々やった超基本的な表現でもときどき悩んでしまいます。
例えば「木製」の訳が「made of wood」なのか「made from wood」なのかなど。

こういうときはウェブ検索サイトが便利で、
前置詞を置き換えたパターンで次々と検索していけば、
検索ヒット数で確からしさが分かります。
しかし、「of」か「from」かなどの二択ならともかく、
候補が曖昧なときには試行回数が増え、
どう考えても面倒くさいです。

このような作業を自動化したのが、
浜本階生さんによる「NativeChecker」です。

英文校正サイト [NativeChecker]
http://native-checker.com/

前置詞だけでなく、
スペルミスや時制などの文法チェックや、
類義語の提示なども行ってくれます。
今年の春から夏にかけて開催された、
Yahoo! JAPAN WEB APIコンテストで賞を取っているすぐれものです。


英語例文検索 EReK

2007年 9月 3日 月曜日 筆者: たつを

ウェブコーパス徹底活用 第二回「英語例文検索 EReK」

ウェブ検索で英単語や英語表現を検索し、
実際の使われ方を調べるという行為は、
ウェブ検索が登場した当初から盛んでした。
私も90年代中ごろ、英語論文と格闘するときによくやってました。

それを思い出して私が作ったサービスが
「英語例文検索 EReK」(http://erek.ta2o.net/)です。

米 Yahoo! が提供している Web API(ウェブ検索API)を使っています。
ウェブ全体を巨大な一つのコーパスとみなして、
入力された英語表現(キーワード)の実際の使われ方を提示するサイトです。


コーパスとしてのウェブ

2007年 8月 20日 月曜日 筆者: たつを

ウェブコーパス徹底活用 第一回「序論:コーパスとしてのウェブ」

インターネットの発展のおかげで、
調べもの、情報収集が格段に楽になりました。
一昔前は、知ってそうな人を探して聞いてまわったり、
図書館などへ行って調べたり、手間がかかっていたのですが、
今ではウェブ検索サイトに行って検索窓にキーワードを入れるだけです。

それは、
ものすごくたくさんのデータ、ウェブページ上のテキストが
Google などの検索エンジンのサーバに集められていて、
すぐに取り出せる状態になっているからなのです。

このようなウェブ検索が使える今この時代は、
語学、特にインターネットの共通言語と言っても良い英語の
勉強・研究に最適な環境であると言えます。

ウェブ検索は、必要な英語資料を探す、という目的(
リーディング教材としてのニュースサイトや
リスニング教材としてのポッドキャスト・動画サイトなど)にも有用ですが、
やはり一番重要なのは、
ウェブを巨大な英語用例データベースとして無料で手軽に
利用できるようになったという点です。

単語の意味を調べるために辞書を引く、という行為は、
コンピュータがなくても紙の辞書でもできることでした。
しかし、
ありとあらゆる言語表現についての用例を探すということは、
コンピュータがなければほぼ不可能なことだったのです。
それが今やウェブ検索エンジンで誰でも簡単にできるようになったのです。

また、ウェブの世界は今この瞬間にも成長を続けています。
つまり、新しいテキストが、語が、表現が、次々と用例データベースに
追加されている状態なのです。
常に最新の状態なのです。最新の言語表現がつまっているのです。

こんなことは人類史上なかったことです。
これは画期的なことなのです!

というわけで、ちょっと熱くなってしまいましたが、
これから何回かに渡って、
「コーパスとしてのウェブ」をテーマに、
ウェブ検索機能をベースとしたツールを紹介していきます。

その際にポイントとなる技術が Web API です。
これは、ウェブ検索を、
人間ではなくコンピュータプログラムにとって
使いやすくするための技術で、
Google や Yahoo! などのウェブ検索各社が(基本的に無料で)提供しています。
詳細は省きますが、この Web API を用いるとウェブ検索結果を自由自在に、
かつ、簡単に加工することができます。
最近、週末プログラマー、趣味プログラマー、本職プログラマーたちが、
Web API を利用した「言語学習や言語調査に便利なサイト」を
ウェブで公開しています。
次回から順次紹介していきますのでご期待下さい。

なお、コーパスとは、
言語研究などの目的のために大量のテキストを集めたものです。
「検索エンジンのサーバに蓄積されたデータ」は、
ウェブ時代の大規模コーパスと言えます。

■筆者プロフィール

たつを

奈良先端科学技術大学院大学卒,工学博士。
専門は自然言語処理技術やテキストマイニング。
ブログ「たつをのChangeLog」を10年以上運営。

◆編集部より:たつをさんのコラムを全6回の予定で掲載します。次回(第2回)は9月3日(火)に掲載の予定です。ご期待ください。


次のページ »