解析子の評価

Next: ルールの精度 Up: 考察 Previous: 頻度解析の有効性

解析子の評価

実験5 では
./atom 5 (一連の英数字、一連の同種日本語文字、一連の記号列がアトム)
./atom 3 (空白または改行で区切られる文字列がアトム)
./atom 2 (一連の英数字、一連の記号列がアトム)
./atom 1 (一連の英数字、記号1文字がアトム)
./atom 0 (1文字がアトム)
の5つの解析子の間の違いを調べたその結果、./atom 1～5に対して、./atom 0 つまり1つ1 つの文字をアトムと見做した場合は、導出されるルールの精度が悪いことが分かった。しかし、これは ./atom 0 が解析子として他の4つよりも劣っているということではない。例えば文書集合 (2) の場合には、./atom 2 と ./atom 0 をそれぞれ解析子として、50% の文書を用いてルールを導出すると、

tabular772

のように、ほぼ同じ正答率になる。
ところで、本システムでは閾値を徐々に小さくしていくため、どのような解析子を用いても、最終的に何らかのルールが導出される。しかし、この例のように、対象となる文書集合によって、適当な解析子と不適当な解析子がある。そのため、解析子の良否を判断する基準がないと困ることになる。実験5 では、対象文書集合の部分集合に対して解析を行い、導出されたルールを全文書に対して適用した結果、./atom 0 が不適当であると分かったのであるが、これ以外に判断する基準があると良い。
実験5 の結果を見ると、./atom 0 だけがやたら冗長なルールを導出していることが分かる。分類に於いて、なるべく簡潔なルールが良いルールであるというのは、他の研究でも認められている基本的事項である。即ち、導出されたルールが冗長な場合、妥当な解析を行っているとは言えなくなってくる。先の (2) については、./atom 2 も ./atom 0 も共にグループ数と同じ6個のルールが導出されたので、正答率を求めなくても、同じように妥当な結果になると予想できる。
さらに、ルール導出が終了する前に判断できないかどうか確かめてみた。実験5 の解析中、プログラムの内部状態を出力すると、./atom 0 の場合には、各文字の頻度分布がグループ毎にあまり大差ないことが分かった。このことから、複数の解析子がある場合、頻度分布がグループによらず同じように平坦になってしまう場合には、その解析子を不適当と判断できると言える。