Next: ルールの精度 Up: 考察 Previous: 頻度解析の有効性 |
解析子の評価実験5 では
のように、ほぼ同じ正答率になる。 ところで、本システムでは閾値を徐々に小さくしていくため、どのような解析子 を用いても、最終的に何らかのルールが導出される。 しかし、この例のように、対象となる文書集合によって、適当な解析子と不適当 な解析子がある。 そのため、解析子の良否を判断する基準がないと困ることになる。 実験5 では、対象文書集合の部分集合に対して解析を行い、導出されたルー ルを全文書に対して適用した結果、./atom 0 が不適当であると分かった のであるが、これ以外に判断する基準があると良い。 実験5 の結果を見ると、./atom 0 だけがやたら冗長なルールを導出 していることが分かる。 分類に於いて、なるべく簡潔なルールが良いルールであるというのは、他の研究 でも認められている基本的事項である。 即ち、導出されたルールが冗長な場合、妥当な解析を行っているとは言えなくなっ てくる。 先の (2) については、./atom 2 も ./atom 0 も共にグループ数と 同じ6個のルールが導出されたので、正答率を求めなくても、同じように妥当な 結果になると予想できる。 さらに、ルール導出が終了する前に判断できないかどうか確かめてみた。 実験5 の解析中、プログラムの内部状態を出力すると、./atom 0 の 場合には、各文字の頻度分布がグループ毎にあまり大差ないことが分かった。 このことから、複数の解析子がある場合、頻度分布がグループによらず同じよう に平坦になってしまう場合には、その解析子を不適当と判断できると言える。
|
吉田 誠一のホームページ に戻る。 Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved. Sat Mar 8 05:59:11 JST 1997 |