---------------------------------------------------------------------

next up previous contents
Next: ルールの精度 Up: 考察 Previous: 頻度解析の有効性

---------------------------------------------------------------------

解析子の評価

実験5 では

  • ./atom 5 (一連の英数字、一連の同種日本語文字、一連の記号列がアトム)
  • ./atom 3 (空白または改行で区切られる文字列がアトム)
  • ./atom 2 (一連の英数字、一連の記号列がアトム)
  • ./atom 1 (一連の英数字、記号1文字がアトム)
  • ./atom 0 (1文字がアトム)
の5つの解析子の間の違いを調べた その結果、./atom 15に対して、./atom 0 つまり1つ1 つの文字をアトムと見做した場合は、導出されるルールの精度が悪いことが分かっ た。 しかし、これは ./atom 0 が解析子として他の4つよりも劣っているとい うことではない。 例えば文書集合 (2) の場合には、./atom 2./atom 0 をそれぞ れ解析子として、50% の文書を用いてルールを導出すると、

tabular772

のように、ほぼ同じ正答率になる。

ところで、本システムでは閾値を徐々に小さくしていくため、どのような解析子 を用いても、最終的に何らかのルールが導出される。 しかし、この例のように、対象となる文書集合によって、適当な解析子と不適当 な解析子がある。 そのため、解析子の良否を判断する基準がないと困ることになる。 実験5 では、対象文書集合の部分集合に対して解析を行い、導出されたルー ルを全文書に対して適用した結果、./atom 0 が不適当であると分かった のであるが、これ以外に判断する基準があると良い。

実験5 の結果を見ると、./atom 0 だけがやたら冗長なルールを導出 していることが分かる。 分類に於いて、なるべく簡潔なルールが良いルールであるというのは、他の研究 でも認められている基本的事項である。 即ち、導出されたルールが冗長な場合、妥当な解析を行っているとは言えなくなっ てくる。 先の (2) については、./atom 2./atom 0 も共にグループ数と 同じ6個のルールが導出されたので、正答率を求めなくても、同じように妥当な 結果になると予想できる。

さらに、ルール導出が終了する前に判断できないかどうか確かめてみた。 実験5 の解析中、プログラムの内部状態を出力すると、./atom 0 の 場合には、各文字の頻度分布がグループ毎にあまり大差ないことが分かった。 このことから、複数の解析子がある場合、頻度分布がグループによらず同じよう に平坦になってしまう場合には、その解析子を不適当と判断できると言える。

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997