著者ごとのアーカイブ

日英対訳文対応付けデータ

2007年 10月 29日 月曜日 筆者: たつを

ウェブコーパス徹底活用 第六回「日英対訳文対応付けデータ」

「翻訳メモリ」と呼ばれる一連のソフトをご存じでしょうか。
これは、翻訳者の翻訳支援が主な目的で、
翻訳したい文をキーに過去の翻訳例で似たものを取り出すシステムです。
翻訳作業負荷の軽減、および、翻訳文の一貫性の確保など、
様々な利点があります。

翻訳メモリにとって、
翻訳例(これもコーパスと言えます)がどれだけあるかが重要です。
それも一文対一文の形式(対訳形式)になっていることが望まれます。
そういうデータって、
企業内では「過去のマニュアルの翻訳データ」という形であったりしますが、
オープンな環境ではなかなか入手できないんですよね。

前置きが長くなっていましたが、
今回はオープンな翻訳例(対訳)データの話です。

「プロジェクト杉田玄白」(www.genpaku.org) という、
著作権切れなどの英語テキストを有志が日本語に翻訳するプロジェクトがあります。

情報通信研究機構では、
インターネットの力で作成された貴重なコーパスであるこの翻訳テキストを、
元のテキストと文単位でつきあわせて、対訳文データを作成し、公開しています。

日英対訳文対応付けデータ
http://www2.nict.go.jp/x/x161/members/mutiyama/align/index.html

検索機能も提供されています。
気になる単語や表現をキーに、
いろいろな翻訳者さんの翻訳例を調べることができるので、
英語の勉強にもなりそうです。

日英対応付けコーパスの検索
http://www.kotonoba.net/~snj/cgi-bin/text-search/text-search.cgi

さて、今回でのこの連載は最終回となります。
これまで、数回に渡ってウェブ上で使えるコーパスツールを紹介してきました。
この分野は動きが活発なので、
これからも様々なツールやデータが整備されていくと思います。
うまく仕事や勉強に活用していただければ幸いです。
ありがとうございました。


■筆者プロフィール

たつを

奈良先端科学技術大学院大学卒,工学博士。
専門は自然言語処理技術やテキストマイニング。
ブログ「たつをのChangeLog」を10年以上運営。

◆編集部より:たつをさんの全6回のコラムは今回が最終回です。ご愛読ありがとうございました。
前回(第5回)は10月15日の掲載でした。

リーズ大学の多言語コーパス検索サイト

2007年 10月 15日 月曜日 筆者: たつを

ウェブコーパス徹底活用 第五回「リーズ大学の多言語コーパス検索サイト」

この連載の第二回で紹介した拙作「英語例文検索 EReK」(http://erek.ta2o.net/) は、
Web API (ウェブ検索API)を使って、
「ウェブ全体を巨大な一つのコーパスとみなす」ことにより、
コーパス検索を可能にするサービスでした。

今回は、普通のコーパス(ウェブだけではない大量のテキスト)
の検索についてです。

英国のリーズ大学 (University of Leeds) では、
英語、中国語、フランス語、日本語などの様々な言語の
大規模コーパスを作成しています
(参考 http://corpus.leeds.ac.uk/list.html)。
ここでは、これらのコーパスを検索するインタフェースについて解説します。

Leeds collection of Internet corpora
http://corpus.leeds.ac.uk/internet.html

参考図(クリックで拡大):
サムネイル

カタカナから英語スペルを調べる「うろぼえ」

2007年 10月 1日 月曜日 筆者: たつを

ウェブコーパス徹底活用 第四回 カタカナから英語スペルを調べる「うろぼえ」

英文を書くときに悩むのが、英語のスペルです。

ワードをはじめ、
多くのエディタソフトには英語のスペルチェック機能がついており、
だいたいの綴りが分かれば正しい綴りが分かったりします。
「Lだっけ、Rだっけ?」程度の曖昧さなら、
とりあえず入力してみれば何とかなります。

しかし、全体的に曖昧な綴りってありますよね?
発音は分かるんだけど英語で書こうとすると、
まったく分からなくなる単語ってありませんか?
英語から見ての外来語などの多くがこれですね。
そういう単語って「発音」が頭の中にカタカナ化されて格納されているので、
英語で書こうとするときにものすごく悩みます。

そういうときに便利なのが「うろぼえ」です。
「うろぼえ」はカタカナ表記から元の英単語スペルを調べるサービスです。

uroboe うろぼえ - うろおぼえなカタカナ単語から英単語のスペルを探すよ
http://uroboe.seewee.net/

英文校正サイトNativeChecker

2007年 9月 18日 火曜日 筆者: たつを

ウェブコーパス徹底活用 第三回「英文校正サイトNativeChecker」

今回は、英作文に役立つ英文校正ツールの紹介です。

英作文で一番やっかいなのは on, with, for, of などの前置詞です。
受験勉強で散々やった超基本的な表現でもときどき悩んでしまいます。
例えば「木製」の訳が「made of wood」なのか「made from wood」なのかなど。

こういうときはウェブ検索サイトが便利で、
前置詞を置き換えたパターンで次々と検索していけば、
検索ヒット数で確からしさが分かります。
しかし、「of」か「from」かなどの二択ならともかく、
候補が曖昧なときには試行回数が増え、
どう考えても面倒くさいです。

このような作業を自動化したのが、
浜本階生さんによる「NativeChecker」です。

英文校正サイト [NativeChecker]
http://native-checker.com/

前置詞だけでなく、
スペルミスや時制などの文法チェックや、
類義語の提示なども行ってくれます。
今年の春から夏にかけて開催された、
Yahoo! JAPAN WEB APIコンテストで賞を取っているすぐれものです。

英語例文検索 EReK

2007年 9月 3日 月曜日 筆者: たつを

ウェブコーパス徹底活用 第二回「英語例文検索 EReK」

ウェブ検索で英単語や英語表現を検索し、
実際の使われ方を調べるという行為は、
ウェブ検索が登場した当初から盛んでした。
私も90年代中ごろ、英語論文と格闘するときによくやってました。

それを思い出して私が作ったサービスが
「英語例文検索 EReK」(http://erek.ta2o.net/)です。

米 Yahoo! が提供している Web API(ウェブ検索API)を使っています。
ウェブ全体を巨大な一つのコーパスとみなして、
入力された英語表現(キーワード)の実際の使われ方を提示するサイトです。

コーパスとしてのウェブ

2007年 8月 20日 月曜日 筆者: たつを

ウェブコーパス徹底活用 第一回「序論:コーパスとしてのウェブ」

インターネットの発展のおかげで、
調べもの、情報収集が格段に楽になりました。
一昔前は、知ってそうな人を探して聞いてまわったり、
図書館などへ行って調べたり、手間がかかっていたのですが、
今ではウェブ検索サイトに行って検索窓にキーワードを入れるだけです。

それは、
ものすごくたくさんのデータ、ウェブページ上のテキストが
Google などの検索エンジンのサーバに集められていて、
すぐに取り出せる状態になっているからなのです。

このようなウェブ検索が使える今この時代は、
語学、特にインターネットの共通言語と言っても良い英語の
勉強・研究に最適な環境であると言えます。

ウェブ検索は、必要な英語資料を探す、という目的(
リーディング教材としてのニュースサイトや
リスニング教材としてのポッドキャスト・動画サイトなど)にも有用ですが、
やはり一番重要なのは、
ウェブを巨大な英語用例データベースとして無料で手軽に
利用できるようになったという点です。

単語の意味を調べるために辞書を引く、という行為は、
コンピュータがなくても紙の辞書でもできることでした。
しかし、
ありとあらゆる言語表現についての用例を探すということは、
コンピュータがなければほぼ不可能なことだったのです。
それが今やウェブ検索エンジンで誰でも簡単にできるようになったのです。

また、ウェブの世界は今この瞬間にも成長を続けています。
つまり、新しいテキストが、語が、表現が、次々と用例データベースに
追加されている状態なのです。
常に最新の状態なのです。最新の言語表現がつまっているのです。

こんなことは人類史上なかったことです。
これは画期的なことなのです!

というわけで、ちょっと熱くなってしまいましたが、
これから何回かに渡って、
「コーパスとしてのウェブ」をテーマに、
ウェブ検索機能をベースとしたツールを紹介していきます。

その際にポイントとなる技術が Web API です。
これは、ウェブ検索を、
人間ではなくコンピュータプログラムにとって
使いやすくするための技術で、
Google や Yahoo! などのウェブ検索各社が(基本的に無料で)提供しています。
詳細は省きますが、この Web API を用いるとウェブ検索結果を自由自在に、
かつ、簡単に加工することができます。
最近、週末プログラマー、趣味プログラマー、本職プログラマーたちが、
Web API を利用した「言語学習や言語調査に便利なサイト」を
ウェブで公開しています。
次回から順次紹介していきますのでご期待下さい。

なお、コーパスとは、
言語研究などの目的のために大量のテキストを集めたものです。
「検索エンジンのサーバに蓄積されたデータ」は、
ウェブ時代の大規模コーパスと言えます。

■筆者プロフィール

たつを

奈良先端科学技術大学院大学卒,工学博士。
専門は自然言語処理技術やテキストマイニング。
ブログ「たつをのChangeLog」を10年以上運営。

◆編集部より:たつをさんのコラムを全6回の予定で掲載します。次回(第2回)は9月3日(火)に掲載の予定です。ご期待ください。

次のページ »