---------------------------------------------------------------------

next up previous contents
Next: システムの実装 Up: 研究の概要 Previous: 研究の方針

---------------------------------------------------------------------

システムの構成

本システムの構成は次の通りである(図 3.1参照)。

   figure59
図 3.1: システム構成図

まず、いくつかの文書からなる文書集合を用意する。 その文書集合は予め何らかの基準に基づいて複数のグループに分類されているも のとする。 その文書集合を本システムに入力すると、結果として分類のルールが導出される。

システムはまた、予めいくつかの 解析子 を持つものとする。 解析子とは、文書を入力とし、文書中の何らかの最小単位(アトム)を出力とする ものである。 代表的なものとしては、文書を単語ごとに切り分けて出力するようなものが考え られる。 本システムは、解析子の返す値を頻度解析して、ルール導出を試みる。

ルール導出の手続きは図 3.2のようになる。 システムは始めに、解析子表から解析子集合 A を読み込む。 次に文書集合 D を読み込むが、これは予め分類されているものとし、そのグ ループ集合を G とする。 尚、これらの例は図 3.3にある。

解析に入る前に、各解析子 tex2html_wrap_inline1360 を全文書に作用させて、a の結果出力 されるアトムの集合 tex2html_wrap_inline1364 を作成する。 頻度解析では、 tex2html_wrap_inline1366 の各要素 s の頻度分布を解析し、ルール導出を試み る。 ある s を用いて文書の分類がうまく説明できた時、as はその分類の ルールを説明する妥当な観点であると見なされる。 そこで、 tex2html_wrap_inline1376 をルールの候補文字列または 候補tex2html_wrap_inline1378 を ルールの候補文字列集合または候補集合と呼ぶ。

実際の解析は各グループ毎に独立して行う。 あるグループgに着目している時、全文書 D を、そのグループに所属するも の (正集合 tex2html_wrap_inline1384 ) と所属しないもの(負 集合 tex2html_wrap_inline1386 ) とに分けて考える。 各解析子 tex2html_wrap_inline1388 について、その候補集合 tex2html_wrap_inline1390 の候補 tex2html_wrap_inline1392 を1つ1つ作用させて、そのグループに所属するかしないかが説明できるかどうか を判定する。 具体的には、各文書 d の中の s の頻度 tex2html_wrap_inline1398 を求め、正集合 tex2html_wrap_inline1400 に対する頻度分布 tex2html_wrap_inline1402 と、負集合 tex2html_wrap_inline1404 に対する頻度分布 tex2html_wrap_inline1406 が重複しない場合に、そのグループの分類が説明できたものとし、 ルールを導出する。 しかし実際には、ある1つの tex2html_wrap_inline1408 の組み合わせだけでそのグループのす べての文書が説明できることは少ない。 そのため、正集合のある部分集合 tex2html_wrap_inline1410 に対する頻度分布 tex2html_wrap_inline1412 と負集合に対する頻度分布が重複しない場合も、そのグループを部 分的に説明できたとして、ルールを導出することにする。

あるルールが導出できて、そのグループに所属する文書集合の部分集合 tex2html_wrap_inline1414 がそのルールで説明されたとする。 この時、文書の全体集合 D から tex2html_wrap_inline1418 を削除してから、引き続き解析を 行う。 この結果、導出されるルールには順序関係が生じることになる。 つまり、新しい文書にルールを適用して分類する場合、導出されたのと同じ順序 でルールを適用していかなければいけない。 このようなルールを手続き型ルールと呼ぶ。 逆に、ルールが互いに独立で、適用する順序によらず一意に文書が分類できるよ うなルールを宣言型ルールと呼ぶgif

以上の手続きを、最終的に D が空になるまで繰り返し行う。

導出されるルールtex2html_wrap1332 で表される。 即ち、ある文書 d に解析子 a を作用させ、その結果出力されるアトムの集 合に対し、候補文字列 s の出現頻度が tex2html_wrap_inline1428 である場合、そ の文書 d がグループ g に所属すると判定されることになる。 後述する実装では、ルールにそれが正しい結果を返す確率(適合率) p を導入 している。 この場合、ルールの定義は tex2html_wrap1333 となる。

   figure96
図 3.2: システムの動作手続き

   figure143
図 3.3: システムの手続きの例

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997