---------------------------------------------------------------------

next up previous contents
Next: 研究の目的と概要 Up: 序論 Previous: 序論

---------------------------------------------------------------------

研究の背景

電子化図書館の実現に向けての研究、実験が各所で盛んに行われている[1]。 図書館が電子化されると、利用者はネットワークを通じて、いつでもどこでも文 書を閲覧することができるようになる。 また、既にWWW上には膨大な量の情報が蓄積されており、自由にアクセスできる ようになっている。 このように情報の電子化が進み、容易にアクセスできるようになると、各個人が 個別に収集できる情報量が格段に増えることになる。 そのため、必然的に情報の取捨選択が行われ、各個人が、それぞれ自分が必要と する情報だけを収集するようになる。 その結果、独自のデータベース(個人書庫)が手もとに構築され、それを管理する 必要性が生じる。 本論文では、特に個人書庫内の文書の分類法に着目し、分類を自動化するための 手法について検討する。

現在の図書館では日本10進分類法に基づいて文書を分類している。 これは、あらゆる文書を包括的に収集することを前提とし、それを分野毎に分類 する方法である。 図書館は不特定多数の人に利用されるものであるため、全ての人が目的の文書を 探し出すことができるように、一般的な基準に基づいて文書が分類されている。 しかし個人書庫の場合、各個人の嗜好による偏った情報が集められている上、そ れぞれが独自の観点で分類しているため、このような汎用の分類法は適用できな い。

従来の研究の多くは、分類を自動化するには、まず文書の意味を理解しなければ いけないという立場に立っている。 これは、人間が実際に文書を分類する際には、その文書の内容・意味を理解し、 それに応じて似たものを同じグループに分けているという考えに基づいている。 そこで、「文書の意味を表すもの」である キーワードという概念を定義 し、文書からキーワードを抽出する研究[8]、もしくは予め分類され ている文書集合を用いて、共通のカテゴリーに属するキーワードの辞書を作成す る研究[6], [7]等が行なわれている。 キーワードの辞書があり、文書からその内容を表すキーワードを抽出することが できた場合には、文書の自動分類が可能となる。

キーワードは文書の内容・意味を表すものである。 そのため、キーワードを用いる方法は、一般の図書館のように、意味的に同じも のを同じグループにまとめている場合には有効な手法である。 しかし個人書庫は、それぞれが独自の観点で分類されているものである。 必ずしも同じ意味的カテゴリーに属するものを同じグループとしているとは限ら ないため、キーワードだけでは対応できない場合も有り得る。 また、観点が各個人で異なり多様であるため、キーワードの場合のような汎用の 辞書を作成することはできない。

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997