---------------------------------------------------------------------

next up previous contents
Next: 解析子の評価 Up: 考察 Previous: 考察

---------------------------------------------------------------------

頻度解析の有効性

実験1 では、アトムを抽出して頻度解析を行うための解析子 ./atom とともに、一般の UNIX コマンドである file -, wc -c も考慮し てみた。 表 5.1にあるように、(1),(2)の2つの文書集合は、分かりやすい 単純な基準で分類したものを選んである。 具体的には、(1) はファイルの種類を出力する file - によって、(2) は file - に加えて、ファイルサイズを出力する wc -c によって明確 に分類ルールが表現できるものとなっている。

しかし、実は実験1 では、解析子表に先に ./atom 3, ./atom 0 を記述したため、これらの解析子を検討する前に、./atom 3 だけでルー ルが導出し終わってしまっている。 そこで、解析子表に file -, wc -c を先に記述して実験を行うと、 (1) からは file - だけによって3つのルール、(2) からは file -, wc -c, ./atom 3 の3つの解析子によって9つのルールが導出さ れた。

このことを逆に考えてみる。 (1),(2) はそれぞれ、file -, wc -c でそのまま表現されるような 基準で予め分類してあった文書集合であり、現にこれらを解析子とすることでルー ルが導出できている。 そのような (1),(2) に対して、実験1 では空白または改行で区切られる文 字列をアトムとする ./atom 3 だけを用いて、ほぼ同じ数のルールが導出 できたことになる。 これは、何らかの単純な基準(ファイルの種類による、等)に基づいて分類されて いる場合も、アトムを抽出して頻度解析を行うことによって、同程度に妥当なルー ルが導出され得ることを表している。 即ち、

screen750

という本研究の考えに対する、1つの肯定的な事例と言える。

また、実験1 の結果、同じ閾値で繰り返し解析を行っても新しいルールがほ とんど導出されないことが判明した。 このことは、各グループが独立したある候補文字列で説明され得るということを 表している。 例えば、候補Aがグループ1と2を、候補Bがグループ1をそれぞれ説明しうる 場合を考える。 始めに候補Aに着目して解析を行うと、グループ1と2が重複してしまい、候補 Aはルールとして導出されないが、その後候補Bによってグループ1が説明さ れ、全体集合からグループ1が削除された結果、次に再び候補Aに着目した時、 今度はグループ2を説明しうるものとして候補Aがルールとして導出される。 このように、ある候補文字列が複数のグループを説明しうる場合は、同じ閾値で 繰り返した場合に、かなりの頻度で新たなルールが導出されると考えられる。 しかし、実際には2度目、3度目ではルールはほとんど導出されなかった。 このことから、それぞれのグループはそのグループを説明しうる互いに独立な候 補文字列を持っていることが示唆される。 もし、

screen754

が見かけ上のものであれば、候補文字列のグループ毎の独立性はかなり弱くなる はずなので、このことも上記の考えを肯定するものである。

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997