---------------------------------------------------------------------

next up previous contents
Next: ルールの内容 Up: 考察 Previous: 解析子の評価

---------------------------------------------------------------------

ルールの精度

実験5 ,6 の結果から、本システムで導出されたルールがかなりの精度 を持っていることが分かった。 例えば表 5.7の結果は、ある期間に収集し分類した文書集合から導 出したルールによって、さらに同じ期間追加収集した文書を 90% 近い確率で正 しく分類できることになる。 表 5.9を見ると、総文書数4797個のメイル集合に対しては、10% の 文書から 70% もの正答率を得ている。 つまり、最初に収集してルールを導出した期間の実に20倍もの期間に渡って、 50% 以上の確率で正しい分類を行うことができることになる。 但しここでは、個人の分類の観点は時間が経っても不変であるとする。

本システムでは、同じグループに属する文書中に同程度の頻度で出現するアトム をルールとして導出しているだけである。 上記の結果は、人間が文書の意味を理解した上で分類している場合であっても、 必ずしも文書の意味を示すキーワードを付与したり、文書を意味的に解析しなく ても、字面の解析だけによってかなりの精度で自動的に人間と同じ分類を行うこ とができることを示している。 字面だけの解析によって導出されたアトムが、もし偶然同じような頻度で出現し ていただけであれば、10% 程度の部分集合から導出したアトムを用いて、全体 を70%の精度で正しく分類することはできない。 即ち、このアトムは人間の行った意味的な分類を反映したものと見做すことがで きる。 言い換えると、この結果は

screen790

という考えを強く支持するものである。

5.9に於いて、(5)が(3)や(4)に比べて正答率が良いのは、文書数 が充分に多いことが原因だと考えられる。 表 5.10を見ると、10% とかなり縮小したため、多くのグループの 対象文書数が一桁となってしまい、その結果そのグループの正答率が悪くなって しまっている。 (5)の場合はまだ多くのグループが充分な文書数を持っているため、全体として 正答率の低下は起こっていないが、(3)や(4)では元々各グループの文書数が少な かったため、10% にまで縮小すると、大部分のグループが充分な文書数を保っ ていなくなり、全体の精度が悪化したのだと考えられる。 このことから逆に、必要最低限の文書数を対象としてルールを導出すれば、本 システムでかなりの精度でルールが導出できることが分かる。

本実験ではメイルを対象としているため、他の文書集合に対しての傾向はまだ把 握しかねている。 しかしこの結果は、本論文の主張である、文書の最小構成要素アトムの頻度分布 を解析するだけでも、実用に足るレベルのルール導出ができることを強く示唆す るものである。

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997