ルールの評価

Next: 計算量の削減 Up: システムの実装 Previous: 術語の実装

ルールの評価

前章では、あるグループに対して、正集合(そのグループに所属する文書の集合) のある部分集合に対する頻度分布と負集合(そのグループに所属しない文書の集合)に対する頻度分布とが重複しない場合に、解析子 a、候補文字列 s、及び頻度分布をルールとして導出する、と形式的に定義した。しかし、実際には文書集合は有限であるため、頻度分布、はともに有限個の要素を持つ集合となる。そのため、例えば

という分布(1)に対しても、また

という分布(2)に対しても、であるため、それぞれ図 4.3のようにルールが生成されてしまう。


図 4.3: 離散的な集合として見た時

直観的に見て、(2)のケースはうまく分類を説明できているが、(1)のケースは失敗しているように見える。それを反映するためには、頻度分布を離散的な集合としてではなく、連続的な区間として捉えなければいけない。即ち、連続する正集合の頻度(正区間)のうち、長さが最長、つまり最も多くの要素から成る区間を選び、その区間に含まれる文書を、その区間をとする。また、とは、

の意を表すものとする。


図 4.4: 最長正区間を抽出

但し、それだけでは、どんなに不適当なに対しても、図 4.4 の(1)のように区間が選択され、ルールが生成されてしまう。それを防ぐために、被覆率

を定義し、被覆率が一定の下限を上回っている場合に限り、妥当なルール区間としてルールを導出することにする。この下限値を閾値と呼ぶ。
さて、実際には、すべての解析子を作用させ終わっても、一部の文書が分類ルールを導出できずに残ってしまう場合もある。それは、設定した閾値が厳しすぎたことが原因である。そのため、実際のプログラムでは、初期値としては高い値を閾値に設定しておく。すべての解析子を作用させた時点で文書集合 D が空でない場合には、閾値を下げ、再び解析を行うようにする。最悪の場合、閾値が 0 になった時点で解析が終了することになる。
しかし、一般にグループ内の文書数が多い場合は、かなり閾値が低くならないとルールが導出されない。これは、文書数が多くなると、すべての文書がある1つの観点に基づいてそのグループに分類されているのではなく、複数の観点に基づいている場合が多くなるからである。そのため、グループ内の文書数に応じて、補正閾値

を用いることにした。この式は実験の結果、精度を落さずに速くルールを導出できた経験に基づくものである(5.2節の実験3 参照)。


図 4.5: 混合区間として抽出

ところで、図 4.5のように、完全な正区間をとるよりも、正負混合区間として考えた方が良い場合もある。そこで、最長正区間とともに、混合区間 も考慮する。これは、導出されるルールに曖昧性を導入するという意味である。混合区間はそのグループの全文書を被覆するので、その評価は、適合率

を定義して行う。更に、実際には頻度が 0 になる文書がかなり多いため、グループ内の文書をととに分けて考えることができる。そこで、である文書のみを考慮した 出現区間 も考慮する。この場合、適合率の定義は

となる。
但し、適合率だけを元にこれらの曖昧な区間の判断をすると、特に閾値が低くなってきた場合に、無意味なルールが導出されてしまう。そのため、正区間の被覆率が閾値よりも大きい場合、つまり着目している解析子 a と候補 s が妥当なものだと判断された場合に限り、混合区間と出現区間の適合率を求め、大きい方の適合率が正区間の被覆率よりも大きい時には、その区間をルール区間として導出する。