大規模英文データ収集・管理術

第50回 連載を終って

筆者:
2013年5月13日

一昨年6月から、隔週の月曜日に公開してきたこの連載も、今回が最後になりました。いかがだったでしょうか。最初から最後までお読みくださった方、最初は読んでいただいていたが途中で愛想をつかしてしまわれた方、最初は読まなかったが途中から読み始めてくださった方、いろいろな方がいらっしゃると思いますが、共鳴できるところがありましたでしょうか。あるいは、できるところから実践し始めたという方、いらっしゃるでしょうか。

筆者にとっては、この50回の連載は、「トミイ方式」の長所や短所を知るうえで、とても参考になりました。また、書いているうちで、足りない所、紙幅が許す以上、もう少しポイントを絞って書き足していかなければならなかった所なども良くわかりました。いずれ、何かの機会がありましたら、この望みは果たしたいと思っています。その時は、切り口を変え、技術英語に携わっている方たちのみならず、英語を必要とする社会全般の人たちにも目を向けた書籍を作っていきたいと思っています。と同時に、もしこれから始めたいと思われる方がいらっしゃったら、できる限りの支援をしたいとも思っています。

人にはよく、「あのような大辞典を、よく何冊も作れましたね」といわれることがあります。しかし、辞書など、データさえあれば、copy & pasteで誰にでも、いとも簡単にできるのです。収集した英文データを切って貼り、その間にちょっと文章を書き足していきさえすれば誰にでもできるのです。それよりも、もし褒めてくれるのであるならば、辞書や書籍を作ったことよりも、36万点という英文データを集めたことについて褒めていただきたいと思っています。40年近くかけて収集してきた、あのデータの量を褒めていただきたい、というよりも、そのことについて驚嘆していただきたいと思っています。

また、「あの分類が素晴らしい」といってくれる方も多くいます。しかし、同じ系統で、同じ範疇の英文カードが大量に集まっていて、それを整理整頓しようと思えば、誰がやっても同じような分類ができるわけで、50枚や100枚のカードを分類しようと思ったって分類ができるというものではありませんが、同じ系統の英文カードをたくさん集めれば、確度の高い分類ができるわけです。昔、政治の世界でよく「数は力なり」と言われたころがありましたが、この「トミイ方式」も、まさに「数は力なり」です。

英文データを数多く集めればよい分類ができるということは今述べたとおりですが、その数が、その気になってやりさえすれば、信じられないくらい短い期間のうちに、大量に集めることができ、そのデータを基に、信じられないくらいの、奇跡としか思えない短時間に、奇跡としか思えない異様な本を書くことができるものなのです。

この連載の第5回で、拙著、三省堂の『技術英語前置詞活用辞典』の前身である『前置詞の研究』という本を書いた時のエピソードを紹介しました。それは、脱サラをし、この技術翻訳の世界に入ってからわずか3年少々で『前置詞の研究』という本を書き始めたというものですが、この連載の最後に当たり、ともすると、自分の自慢話になってしまうかもしれませんが、特別にお許しを頂き、「トミイ方式」の隠れた「賢さ」を知っていただくため、類似のエピソードをいくつか紹介させていただきたいと思います。

私が初めて、仲間の協力もいただき『科学技術和英大辞典』という2,000ページほどの辞書を出版したのが1988年1月――実際には1987年の暮――です。一方、構想を練ってから出版社との合意に達するまでに1年、執筆だけで5年間、脱稿後出版までに2年、合計8年を差し引くと、1979年には実質作業をスタートしていたことになります。実は1979年というのは、私が脱サラしたのが1974年で、これとほぼ同時に「トミイ方式」を立ち上げたわけですから、実質的には「トミイ方式」をスタートさせてから、わずか5年で「和英大辞典」の構想を練り始めたということになります。「和英大辞典」を作りたい一心で英文データを収集し続けたというのであれば、5年かければそのくらいのデータが集まっても不思議ではありませんが、今までにこの連載で述べてきたように、「7つの大分類」のすべての英文データを集めてきた中で、わずか5年で「和英大辞典」を作ろうと思わせるだけのデータが集まっていたということは、若干、自画自賛的になりますが、奇跡に近いことだと思えてなりません。

ほかに、最終的には丸善から出版された「技術翻訳のテクニック」の出版までの顛末、それに、これも奇跡的なことだと自負していますが、わずか45日間で書き上げてしまった三省堂の「技術英語構文辞典」の真相などなど、「トミイ方式」を実践してきたがゆえに可能ならしめたお話もたくさんあるのですが、これらはこの程度にとどめ、結論として、「英文データさえたくさん集めれば、やりたいことは何でもできる」ということを強調させていただきたいと思います。

また、「トミイ方式」を敷衍していくと、このような機能は、英文データだけに限らず、英文データ以外の一般データや情報の収集・データ化に応用することができます。

例えば、擬音語や擬態語の収集です。昔、何かの本で「擬音語や擬態語を多く使用しているのは平家物語である」ということを読んだことがありますが、早速、四巻からなる平家物語を買ってきて、娘と手分けして集め、まだ、コンピュータがそれほど身近にはなかった頃のことですので、カードに書き込んだことがあります。その後、最初の部分から徐々にコンピュータに入れ始めていますが、カードのままでも、昔、流行ったパンチカード式の概念を導入すれば、カード上のデータのままでも、なんら差支えないこともわかっています。

もっと身近な例としては、筆者が最も崇敬している古今亭志ん生の古典落語や朝日新聞の「天声人語」なども、それぞれ特有の分類方式を取り入れ、カードに収録しています。そのうちのあるものは、必要であり、かつ可能であり、意義のあるものから徐々にコンピュータ化しています。

最後に、現在採用しているコンピュータ方式について、これから再検討しなければならない点を一つ告白し、読者の皆さんからのお知恵を拝借したいと思っています。

筆者は、元来、ITやコンピュータにあまり強くないので、現在はExcelを使用しています。この方式だと、1つの英例文から複数個の英文データを採取する場合、その英文データの数だけ同じ文がデータの中に収録されることになります。まして、複数の英例文から成り立つパラグラフ単位で英文データを採取したとすると、その英文データの数だけ同じパラグラフがデータの中に収録されることになります。

できれば、元のパラグラフを1つだけ収納し、そこに収集したい英文データに適宜タグやフラッグをつけ、いろいろな英文データを1つの英文、さらには1つのパラグラフから検索できるようにしたいと考えています。コンピュータの容量からデータベースの中に1つの英文というわけにはいきませんが、収納しなければならない英文データの数は、ぐっと少なくすることができると思います。

まだ未知数をたくさん抱えた上での最終回ですが、お読みくださった皆様、ありがとうございました。この連載は、「トミイ方式」の紹介を主題とし、技術英語の解説を副題としましたが、この次に皆さんにお目にかかれるときは、この最終回の項の冒頭にも述べましたが、これまでと切り口を変え、この両者を均等に、あるいは、後者のほうに重きを置いた内容の書籍にしたいと思っています。近い将来、再びお目にかかれることを楽しみに「筆をおきたい」と思います。

最後になりましたが、この連載に関し、いろいろご指導くださいました三省堂のご担当者の方々に心よりお礼を申し上げます。

ありがとうございました。また逢う日まで!!

筆者プロフィール

富井 篤 ( とみい・あつし)

技術翻訳者、技術翻訳指導者。株式会社 国際テクリンガ研究所代表取締役。会社経営の傍ら、英語教育および書籍執筆に専念。1934年横須賀生まれ。
主な著書に『技術英語 前置詞活用辞典』、『技術英語 数量表現辞典』、『技術英語 構文辞典』(以上三省堂)、『技術翻訳のテクニック』、『続 技術翻訳のテクニック』(以上丸善)、『科学技術和英大辞典』、『科学技術英和大辞典』、『科学技術英和表現辞典』(以上オーム社)など。