大規模英文データ収集・管理術

第16回 「分類」の構成・1

筆者:
2012年1月23日

今まで、折に触れ「トミイ方式」の「分類」について述べてきましたが、いよいよ今回からその本髄について述べていきます。

第13回第14回で、「トミイ方式」の分類には以下のとおり7つあることを述べました。

(1) アルファベット順 (75%、約260,000点)
(2) 50音順 (1%、約4,000点)
(3) 表現別 (7%、約25,000点)
(4) 品詞別 (4%、約13,000点)
(5) 構文別 (5%、約18,000点)
(6) 数量表現別 (4%、約15,000点)
(7) その他 (4%、約15,000点)

注:カッコ内の数字は、前者は全収集例文数350,000点の中に占める割合、後者はその例文の数を表しています。

これら7つの「分類」について、順に述べていきます。今回と次回は(1) アルファベット順です。

しかし厳密にいいますと、いみじくも上記した名称が示しているように、(1)(2)は「分類」ではなく「順番」です。すなわち、収集した英文データを「分類する」のではなく、そのデータが持つ属性、すなわち、(1)ならばそのデータの頭文字、をアルファベット順に、そして(2)ならばその言葉の最初の文字を50音順に「並べる」だけでよいものです。この「分類」と「順番」の違いは、(2) 50音順(3) 表現別にも関連していますので、この時点で確実に把握しておいてください。

もう一つ大事なことがあります。それは、今までにしばしば出てきていますので、繰り返しになりますが、「収集・分類作業」というものを完全に「トミイ方式」に切り替えていただきたいことです。

それは、この収集・分類作業が、英文データを、その中の収集しようとする、あるキーワードの場所に収納するということです。たとえば、ある英文の中の provide という言葉を収集しようとする場合、その文章全体に provide という表札を付け、英和辞書のように provide の場所に収納することです。中学生の単語カードのように、provide という単語だけを書き、それを provide の場所に収納することではありません。これは、データをカードにコピーするなり、プリントするなり、手書きするなりして転記する場合でも、コンピュータにセーブする場合でも同じです。

(1) アルファベット順

基本的には、どのような単語を収集したらよいのかということに尽きると思いますが、極端な言い方をすると、英単語すべてです。上にも示してありますように、全収集例文数350,000点のうち、このアルファベット順の例文数が75%も占めていることからもわかります。しかし time-effectiveness を考えると、そういうわけにもいきませんので、ここでは、初期の段階で――ここが大事です。あくまでも、「初期の段階では」ということです。ということは、収集活動が進んで来ると、いつの時点か、必ずや、収集対象を広めていきたくなる時がやってくるということです――収集すべき単語類だけを、Q&Aスタイルで述べていくことにします。

どのような単語を収集するのですか?

基本的には、ご自分の英語のレベルや収集目的などによって違いますが、収集するかしないか、するならばどのような単語をするのかについては、次の4つの基準があります。

(i) 取る必要のない単語、取っても無意味である単語
(ii) この「アルファベット順」にだけ取ればよい単語
(iii) この「アルファベット順」には取らず、他の「分類」の中に取るだけでよい単語
(iv) この「アルファベット順」と他の「分類」の両方に取った方がよい単語

これら4つについて、以下、順に説明します。

(i)  取る必要のない単語、取っても無意味である単語

この中には、次のように、意味や用法や活用などに何ら重要な情報や変化を含んでいない単語は、最初のうちは除きます。例えば、以下のような単語です。

boy、girl、desk、car、tree、train、motorなどの普通の名詞

しかし、理想的には、時間と気力さえあれば、これらの単語も最初から集めておいた方が賢明です。例えば、train という言葉も、例文を集めておくと、. . . on the train . . . . という形で使われているでしょうから、ともすると in を使ってしまいがちな train の前置詞は、この例文を見れば on であることが分かります。また、motor という単語も、収集しておくと、a big motor とか a large motor などという形で出てくることがよくありますので、big か large か迷った時、例文をよく見ると a big motor は寸法や図体が大きいことを、そして a large motor は馬力などの容量が大きいことを、それぞれ表していることもわかります。その意味では、単純な形容詞である big や large もやがては集めたくなってくるはずです。

さらには、「制作・発表」機能が高じていき、英和辞典を作りたいという気持ちになった時には、何の変哲もない単語でも、単語という単語はすべて必要になるでしょうから、最初から集めておかなかったとすると、その時点で、急きょ、収集対象の幅を広げていかなければなりませんが、大変な作業になります。

(ii)  この「アルファベット順」にだけ取ればよい単語

一般的には、(i)の範疇に入る単語以外はすべて取るべきです。その中でも、1つの単語が複数の意味を持っているものや、その用法に変化が富んでいるものや、活用の仕方が千変万化するものなど、すなわち、動詞、形容詞、副詞などは、ほぼすべて集め、この分類の中に入れます。例えば、以下のような単語です。

例:provide、apply、causeなどの動詞、available、possibleなどの形容詞、so、bestなどの副詞

(iii) この「アルファベット順」には取らず、他の「分類」の中に取るだけでよい単語

常識的にお分かりだと思いますが、すべての英単語をこの中に入れても意味はありません。下に示すように、他の「分類」の中に入れたほうがよい単語がいろいろあります。例えば、以下のように、それぞれ適切な「分類」の中に入れます。

a,theなど冠詞、at,in,of など前置詞、shall,will,can など助動詞は(4) 品詞別の中に、only,rather than,so that,too ~ to などは(5) 構文別の中に、number や、各種の物理量、例えば圧力、音頭、電圧、電流などは(6) 数量表現別の中に、さらには、ハイフン、コロン、セミコロンなどは(7) その他の中に、それぞれ入れます。

(iv)  この「アルファベット順」と他の「分類」の両方に取った方がよい単語

単語の中には、この「アルファベット順」の中にも入れ、他の「分類」の中にも入れたほうがよい単語もあります。この範疇に属する単語は、非常に数が多く、その重要度も非常に高いものです。したがって、逆の考え方をして、“他の「分類」の中に入れた単語も、できれば、すべて――ただし、(iii)の範疇に入る単語は除く――mother data であるという考え方をして、この「アルファベット順」の中にも入れる”という習慣を付けておくとよいと思います。該当する言葉は無限にあり、ここでは説明しきれませんので、1つだけ、「構文別」という大分類の中の「無生物主語構文」の例を挙げて説明します。

Experience has shown that dryer costs are optimized if inlet temperature is 100°F.

この場合、ともすると、この英文全体を「無生物主語構文」の中にだけ入れ、experience とか、show とか、optimize などをこの「アルファベット順」の中に入れ損なったりすることがあります。このような点を注意する必要があるわけです。もう1つ「無生物主語構文」の例を挙げます。

This proves that hysteresis cannot be eliminated by normal adjustment.

ここでは、その理由は説明しませんが、このThis proves that. . . も「無生物主語構文」のうちの1つであると理解してください。この英文も、「無生物主語構文」の中だけではなく、prove とか、hysteresis とか、eliminate なども大事な単語ですので、この「アルファベット順」の中に入れるようにしてください。

同じ単語は1例だけ集めればいいのですか?

そうではありません。同じ単語でも、意味や用法がよほど似ていない限り、いくつでも集めるとよいです。極端な言い方をすると、ご自分にとって重要と考えられる単語が出てきたら、すべて収集するぐらいの気持ちで日頃から取り組んでおくとよいと思います。
それにはいろいろな理由がありますが、それについては、次回述べることにします。

筆者プロフィール

富井 篤 ( とみい・あつし)

技術翻訳者、技術翻訳指導者。株式会社 国際テクリンガ研究所代表取締役。会社経営の傍ら、英語教育および書籍執筆に専念。1934年横須賀生まれ。
主な著書に『技術英語 前置詞活用辞典』、『技術英語 数量表現辞典』、『技術英語 構文辞典』(以上三省堂)、『技術翻訳のテクニック』、『続 技術翻訳のテクニック』(以上丸善)、『科学技術和英大辞典』、『科学技術英和大辞典』、『科学技術英和表現辞典』(以上オーム社)など。