今、担当しているプロジェクトで日本語処理の問題を扱う関係で、機械翻訳と機械検索の歴史について調べていた。そこで、元京都大学の長尾真先生のお仕事を調べていたところ、長尾先生が中心になってまとめられた『岩波情報科学辞典』がとんでもなくすごいことに気づいた。

この辞典の肝は用語の木およびKWIC式の索引である。ツリー構造というのは、パソコンを扱っていれば、誰でもファイル構造などで馴染みのあるやつである。KWIC(クウィック)というのは、文献から抽出したキーワードの前後の文脈をつけて、キーワードをアルファベット順に配列したものである(178頁)。普通の辞典には、用語の木というものはあまり見かけないのではないだろうか。また、索引は項目語があってページ数が書いてあるだけだ。あるいは、項目の下に「―」を利用して申し訳程度に書いてあることがある。たとえば、

解雇   173、183・・・・
 -費用   40

こんな程度であろう(これはラジアーの『人事と組織の経済学』から引っ張ってきたものである)。

ツリー構造を利用した用語の木やKWIC索引がコンピュータ・サイエンスから来ていることは明らかであろう。だが、『情報科学辞典』のすごいところは、計算言語学といわれる世界を知る専門家たちが、紙媒体を意識して作ったということにあるのだ。今日はこの点をちょっと考察しておきたい。

私は紙媒体のよいところは鳥瞰できることにあると思う。たとえば、厚い本を読むときに索引を眺めると、その頻出度数で重要度がある程度、分かる。こうした方法はアドラーの『本を読む本』講談社学術文庫に書いてある。目次と索引をずっと眺めていると、なんとなく本の構造が分かってくる。

ところが、電子媒体の場合、たとえば、Wikiでもいいが、用語から用語へ飛んだり、検索することで、周辺の知識を獲得していくのには便利なのだが、全体像を捉えるのにはやや不便である。これは、ワープロで打ち込んだ文章も推敲するときには、いったん、打ち出したほうが見やすいというのと似ている。これだったら紙媒体でシンプルに頻度が書いてある方が分かりやすい。

KWICというのはKey Word in Contextの略であり、つまり、文脈におけるキーワードという意味である。もともとは検索をするために考えられたものである。したがって、これをよく修めることは、おそらく検索効率をあげることに繋がるだろう。だが、これが紙媒体になっていることで、他にも思わぬ功徳がある。索引が用例に近づくのだ。索引と用例を一緒に把握できるという感じになる。

いかに検索エンジンが優秀になっても、何かを調べるためには効率よく検索語を入力できた方がいい。しかし、未知の領域を調べるには語彙力がない以上、それは困難である。そういうときには索引を利用してテクニカルタームを覚えるのが有効だろう。

KWIC方式は、単純に考えただけでも、項目語にその前後の文脈を足すわけだから、分量が増えることが想像される。この辞典もコンパクトにしたとはいえ、本文+索引で1172ページ中、305ページが索引である。しかし、それだけ、これが重要なのだ。

もう一つのツリー構造は別にウェブ上にあれば、それでも構わないものだろう。だが、紙であれ、ウェブであれ、やはり専門家の手によるものがいい。長尾先生は「本辞典の使い方」の中でこう書かれている。

1つの専門分野の内容を明らかにするということは、その分野に存在するすべての概念の内容を明らかにすることである。多くの場合、1つの概念は他のいくつかの概念の組合せ、あるいはそれらとの関係として定義されるので、専門分野の概念は1つの木構造の体系にまとめあげることができる。そして、この木全体が1つの専門分野を表現し、この分野の説明にもなっている。専門分野の用語はその分野におけるそれぞれの概念に対して与えられた名前である。したがって概念の体系は”用語の木”として表現される。

極端な話、「本辞典の使い方」を読むだけでも、相当に勉強になる。実はここの構成も「辞典の構成」2ページ、「用語の木」2ページ強、「索引」1ページ半弱、「付言」半ページで、これだけでもいかに本文以外と有機的に使うことを念頭においてこの辞典が作られているかが分かる。実は、科学には近代以前から体系性が重んじられてきた。『情報科学辞典』は調べる辞典ではなく、読む辞典であり、縦横無尽に読むことによって、体系的に情報科学を把握することが出来るように工夫されている。技術進歩の早いこの分野で20年以上前の本に最新情報を求めることは出来ないが、この体系性は捨てがたいと思う。

ナレーションの軽い感じがどうもなじめないが、長尾先生の研究については以下のインタビューが面白い。というか、長尾先生は現在、国会図書館の館長をなさっているのだが、ぜひぜひ近代デジタルライブラリーを充実させて欲しい。



スポンサーサイト
コメント
コメントを投稿
URL:
Comment:
Pass:
秘密: 管理者にだけ表示を許可
 
トラックバック
この記事へのトラックバック