« 明日は何の日:10月2日 - 【季節のことば】秋霖 »

カタカナから英語スペルを調べる「うろぼえ」

2007年 10月 1日 月曜日 筆者: たつを

ウェブコーパス徹底活用 第四回 カタカナから英語スペルを調べる「うろぼえ」

英文を書くときに悩むのが、英語のスペルです。

ワードをはじめ、
多くのエディタソフトには英語のスペルチェック機能がついており、
だいたいの綴りが分かれば正しい綴りが分かったりします。
「Lだっけ、Rだっけ?」程度の曖昧さなら、
とりあえず入力してみれば何とかなります。

しかし、全体的に曖昧な綴りってありますよね?
発音は分かるんだけど英語で書こうとすると、
まったく分からなくなる単語ってありませんか?
英語から見ての外来語などの多くがこれですね。
そういう単語って「発音」が頭の中にカタカナ化されて格納されているので、
英語で書こうとするときにものすごく悩みます。

そういうときに便利なのが「うろぼえ」です。
「うろぼえ」はカタカナ表記から元の英単語スペルを調べるサービスです。

uroboe うろぼえ - うろおぼえなカタカナ単語から英単語のスペルを探すよ
http://uroboe.seewee.net/

仕組みは、
Yahoo!ウェブ検索APIを使用し、
調査対象のカタカナ語でネットを検索し、
検索結果に含まれるアルファベット表記の単語(頻繁に共起する単語)を取り出す、
というものらしいです。
カタカナ表現の近くにそれのアルファベット表現がありがちであろう、
という仮説に基づいたデータマイニングですね。

下図は「サドンデス」の綴りを調べた例です。
複数の候補が出てきますが、
その中にちゃんと正解である「Sudden Death」も含まれています。
そうでないものもたくさん出てきてしまいますが、
自分の目でフィルタリングしましょう!

【図】(クリックで拡大)
サムネイル

うろぼえは、
特に時事ニュースの人名の綴りを調べるときに威力を発揮します。
われわれにはちょっとなじみの薄いアラブ、アフリカの人名や、
漢字表記・カタカナ表記は見慣れているけど英語表記をどうしたらいいか
困ってしまう中国、韓国系の人名などなど。
例えば「ゴルバチョフ」「アラファト」「毛沢東」「金正日」などで
調べてみて下さい。

もちろん、仕組み上、精度は完璧ではありません。
的外れな結果が出てくることも多々あります。
しかし、ネットユーザの力を利用するという
Web 2.0的なアプローチが未来を感じさせます。
いろいろと調整が行われれば、
広範囲の分野で実用的に利用できるサービスに成長していくと思います。


■筆者プロフィール

たつを

奈良先端科学技術大学院大学卒,工学博士。
専門は自然言語処理技術やテキストマイニング。
ブログ「たつをのChangeLog」を10年以上運営。

◆編集部より:たつをさんのコラムを全6回で掲載します。前回(第3回)は9月18日の掲載でした。次回(第5回)は10月15日(月)に掲載の予定です。ご期待ください。

2007年 10月 1日