大規模英文データ収集・管理術

第45回 英文データの実践的収集方法(コンピュータ方式)・1

筆者:
2013年3月4日

第40回から前回の第44回まで、「英文データの実践的収集方法」の「カード方式」について説明してきました。今回(第45回)と次回(第46回)の2回にわたり、「英文データの実践的収集方法」の「コンピュータ方式」について解説していくことにします。

すでに過去のものとなった「カード方式」については5回にわたり説明し、新しい「コンピュータ方式」についてはわずか2回というのは、理にかなった配分ではないように見えると思います。しかし、それにはそれなりの意味があります。

「トミイ方式」というのは、すでに機会あるごとに繰り返し説明してきましたが

収集 ⇒ 分類 ⇒ 収納

という工程から成り立っています。これは、「カード方式」であっても「コンピュータ方式」であっても同じです。ただ違うのは、最後の工程である【収納】だけで、「カード方式」は「収集」・「分類」した英文データをカードに記載してカードケースに「収納」する方式であり、「コンピュータ方式」は「収集」・「分類」した英文データをコンピュータに「収納」する方式であるということだけです。したがって、「カード方式」について5回にわたって説明してきたというのは、「収集」・「分類」した英文データをカードに記載してカードケースに「収納」するというすべての工程を説明したからで、「コンピュータ方式」が2回で済むのは、「収集」・「分類」の説明は割愛し、「収集」・「分類」した英文データをコンピュータに「収納」する工程についてのみ説明するだけで済むからです。つまり、ここでは、「収集」・「分類」の説明は割愛し、コンピュータへの「収納」についてのみ説明することにします。ただし、理解しやすいように、「カード方式」で使用した英例文を使って説明していきます。

もう一つの理由は、カード時代からコンピュータ時代に移ったとはいえ、時と場所と状況を考えると、すべてのデータが必ずしもコンピュータに収納できるものではなく、カードに収納した方がはるかに良い場合が多くあります。したがって、カード時代からコンピュータ時代に移ったとは言っても、いまだにカード方式を使っている、いわば、「コンピュータ・カード併用時代」であるということです。そこで、ここでは、「コンピュータ方式」を切り離し、純粋の「コンピュータ方式」による英文データの収納方法についてのみ説明します。

ただ、それには大きな前提があります。すなわち、元の原稿はすべて電子化されているものでなければならないということです。しかし、そのこと自体は、キーボードから英文で打ち込んだり、元原稿をOCRにかけて電子データ化したりすれば解決できることであって、さして大きな前提となるものではありません。それよりもはるかに、はるかに大きな大前提というのは、先に、収集・分類したすべての英文データを入れていく分類表――これを、「お座敷」と呼んでいます――ができていなければならないということです。

それには、以下に示す2つの方法があります。

(1) 自前のデータベース(分類表)を作る方法
(2) 既存のデータベース(分類表)を使う方法

(1) は、筆者が40年近く前から始めたように、自分自身の目的に沿って、必要とされる英文データをコツコツと集めていき、かなりの量のデータが集まった時点で分類し、分類表を作成する方法です。筆者の経験では、英文データが10,000点から20,000点くらいになると、かなり精度の高い分類ができると思います。この方法は、時間と根気が必要になりますが、学習機能や活用機能の極めて高い方法です。

(2) は、筆者が「トミイ方式」を始めようとしている人たちのためにEXCELで作成した分類表で、7つの大分類から始め、そのそれぞれに対し、中分類、小分類、細分類などに分類している表で、理解しやすいように、ところどころに、サンプルとして初期データが収納されている、EXCELで作成した分類表――これを「簡易式分類表」と呼びます――を使用する方法です。

それでは早速、収集した英文データを「簡易式分類表」に収納する方法を、第40回から第44回までに使用した「データカード」を使って説明します。「トミイ方式」では7つの分類がありますので、あらかじめ、「簡易式分類表」の下部の「シート見出し」を大分類として左から順に「ABC順」、「50音順」、「表現別」、「品詞別」、「構文別」、「数量表現別」、および「その他」としておきます。

「簡易式分類表」を目にすることなくそこにデータを収納していくのはむずかしいと思いますが、ご希望の方には、この「簡易式分類表」をお求めいただける方法を考えていますので、より確実に理解したいと思われ方は筆者まで直接にご連絡ください。とりあえずは、縦方向の「列」には、左から順に「中分類」、「小分類」、「細分類」、「細々分類」、「極細分類」、「英例文」、「和訳文」と並んでおり、横方向の「行」には、それぞれの項目が並んでいると想像してお読みください。

データカード1

これは前置詞 in の収集です。第40回をご参照ください。

①「シート見出し」の「品詞別」を開きます。
 ②「中分類」として「前置詞」を選びます。
 ③「小分類」として「単体前置詞」を選びます。
 ④「細分類」として「in」を選びます。
 ⑤「細々分類」として「~の」を選びます。
 ⑥ 元の英文を「英例文」欄に入れます。

元の英文が電子化されたデータならばcopy & pasteで、電子化されていないデータならばキーボードからの打ち込みで、「英例文」欄に入れます。この工程はすべての英文データに共通しますので、これ以降は説明は省略します。

「和訳文」を加えるかどうかはご自身で判断していただかないといけません。翻訳しながらデータ収集する場合には、その時間はないと思います。それに、これは英文データを収集することにありますので、和訳文を入れる必要はないでしょう。ただ、「出典」および「収集年月日」は入れておいたほうがよいと思います。

もし、最初から「細々分類」までは必要としない場合、またはできない場合には、ご自身でどの段階までの分類を必要とするか、またはできるかを判断し、② の段階、③の段階、④の段階で1行挿入し、挿入したその「行」の「英例文」の「列」英文データを入れます。

データカード2

これは、無生物主語構文の収集です。第41回をご参照ください。

①「シートの見出し」の「構文」を開きます。
 ②「中分類」として「無生物主語構文」を選びます。

最初のうちはここまでで良いと思います。この段階で1行挿入し、元の英文を「英例文」の「列」に入れます。後日、無生物主語構文がたくさん集まった時点で、無生物主語構文自体を学習し、「簡易式分類表」の中の分類と照らし合わせながら「英例文」の「列」に入れます。

データカード3

これも、前置詞 in の収集です。第41回をご参照ください。

①「シート見出し」の「品詞別」を開きます。
 ②「中分類」として「前置詞」を選びます。
 ③「小分類」として「単体前置詞」を選びます。
 ④「細分類」として「in」を選びます。
 ⑤「細々分類」として「~中」を選びます。
 ⑥ 元の英文を「英例文」の「列」に入れます。

今回はここまでとし、次回は「データカード4」から説明します。

筆者プロフィール

富井 篤 ( とみい・あつし)

技術翻訳者、技術翻訳指導者。株式会社 国際テクリンガ研究所代表取締役。会社経営の傍ら、英語教育および書籍執筆に専念。1934年横須賀生まれ。
主な著書に『技術英語 前置詞活用辞典』、『技術英語 数量表現辞典』、『技術英語 構文辞典』(以上三省堂)、『技術翻訳のテクニック』、『続 技術翻訳のテクニック』(以上丸善)、『科学技術和英大辞典』、『科学技術英和大辞典』、『科学技術英和表現辞典』(以上オーム社)など。