« 明日は何の日:10月30日 - 出版案内(11月) »

日英対訳文対応付けデータ

2007年 10月 29日 月曜日 筆者: たつを

ウェブコーパス徹底活用 第六回「日英対訳文対応付けデータ」

「翻訳メモリ」と呼ばれる一連のソフトをご存じでしょうか。
これは、翻訳者の翻訳支援が主な目的で、
翻訳したい文をキーに過去の翻訳例で似たものを取り出すシステムです。
翻訳作業負荷の軽減、および、翻訳文の一貫性の確保など、
様々な利点があります。

翻訳メモリにとって、
翻訳例(これもコーパスと言えます)がどれだけあるかが重要です。
それも一文対一文の形式(対訳形式)になっていることが望まれます。
そういうデータって、
企業内では「過去のマニュアルの翻訳データ」という形であったりしますが、
オープンな環境ではなかなか入手できないんですよね。

前置きが長くなっていましたが、
今回はオープンな翻訳例(対訳)データの話です。

「プロジェクト杉田玄白」(www.genpaku.org) という、
著作権切れなどの英語テキストを有志が日本語に翻訳するプロジェクトがあります。

情報通信研究機構では、
インターネットの力で作成された貴重なコーパスであるこの翻訳テキストを、
元のテキストと文単位でつきあわせて、対訳文データを作成し、公開しています。

日英対訳文対応付けデータ
http://www2.nict.go.jp/x/x161/members/mutiyama/align/index.html

検索機能も提供されています。
気になる単語や表現をキーに、
いろいろな翻訳者さんの翻訳例を調べることができるので、
英語の勉強にもなりそうです。

日英対応付けコーパスの検索
http://www.kotonoba.net/~snj/cgi-bin/text-search/text-search.cgi

さて、今回でのこの連載は最終回となります。
これまで、数回に渡ってウェブ上で使えるコーパスツールを紹介してきました。
この分野は動きが活発なので、
これからも様々なツールやデータが整備されていくと思います。
うまく仕事や勉強に活用していただければ幸いです。
ありがとうございました。


■筆者プロフィール

たつを

奈良先端科学技術大学院大学卒,工学博士。
専門は自然言語処理技術やテキストマイニング。
ブログ「たつをのChangeLog」を10年以上運営。

◆編集部より:たつをさんの全6回のコラムは今回が最終回です。ご愛読ありがとうございました。
前回(第5回)は10月15日の掲載でした。

2007年 10月 29日