---------------------------------------------------------------------

next up previous contents
Next: 計算量の削減 Up: システムの実装 Previous: 術語の実装

---------------------------------------------------------------------

ルールの評価

 

前章では、あるグループに対して、正集合(そのグループに所属する文書の集合) のある部分集合 tex2html_wrap_inline1522 に対する頻度分布 tex2html_wrap_inline1524 と 負集合(そのグループに所属しない文書の集合)に対する頻度分布 tex2html_wrap_inline1526 とが重複しない場合に、解析子 a、候補文字列 s、及び頻度分布 tex2html_wrap_inline1532 をルールとして導出する、と形式的に定義した。 しかし、実際には文書集合は有限であるため、頻度分布 tex2html_wrap_inline1534tex2html_wrap_inline1536 はともに有限個の要素を持つ集合となる。 そのため、例えば

displaymath1508

という分布(1)に対しても、また

displaymath1509

という分布(2)に対しても、 tex2html_wrap_inline1538 であるた め、それぞれ図 4.3のようにルールが生成されてしまう。

   figure327
図 4.3: 離散的な集合として見た時

直観的に見て、(2)のケースはうまく分類を説明できているが、(1)のケースは失敗 しているように見える。 それを反映するためには、頻度分布を離散的な集合としてではなく、連続的な区 間として捉えなければいけない。 即ち、連続する正集合の頻度(正区間)のうち、長さが最長、つまり最も多 くの要素から成る区間を選び、その区間に含まれる文書を tex2html_wrap_inline1540 、その区間 を tex2html_wrap_inline1542 とする。 また、 tex2html_wrap1498 とは、

displaymath1510

の意を表すものとする。

   figure343
図 4.4: 最長正区間を抽出

但し、それだけでは、どんなに不適当な tex2html_wrap_inline1544 に対しても、図 4.4 の(1)のように区間が選択され、ルールが生成されてしまう。 それを防ぐために、被覆率gif

displaymath1511

を定義し、被覆率が一定の下限を上回っている場合に限り、妥当なルール区間と してルールを導出することにする。 この下限値を 閾値 と呼ぶ。

さて、実際には、すべての解析子を作用させ終わっても、一部の文書が分類ルー ルを導出できずに残ってしまう場合もある。 それは、設定した閾値が厳しすぎたことが原因である。 そのため、実際のプログラムでは、初期値としては高い値を閾値に設定しておく。 すべての解析子を作用させた時点で文書集合 D が空でない場合には、閾値を 下げ、再び解析を行うようにする。 最悪の場合、閾値が 0 になった時点で解析が終了することになる。

しかし、一般にグループ内の文書数が多い場合は、かなり閾値が低くならないと ルールが導出されない。 これは、文書数が多くなると、すべての文書がある1つの観点に基づいてそのグ ループに分類されているのではなく、複数の観点に基づいている場合が多くなる からである。 そのため、グループ内の文書数に応じて、補正閾値

displaymath1512

を用いることにした。 この式は実験の結果、精度を落さずに速くルールを導出できた経験に基づくもの である(5.2節の実験3 参照)。

   figure361
図 4.5: 混合区間として抽出

ところで、図 4.5のように、完全な正区間をとるよりも、正負混合 区間として考えた方が良い場合もある。 そこで、最長正区間とともに、混合区間 tex2html_wrap1499 も考慮する。 これは、導出されるルールに曖昧性を導入するという意味である。 混合区間はそのグループの全文書を被覆するので、その評価は、適合率

displaymath1513

を定義して行う。 更に、実際には頻度が 0 になる文書がかなり多いため、グループ内の文書を tex2html_wrap1500tex2html_wrap1501 とに分けて考えることができる。 そこで、 tex2html_wrap_inline1558 である文書のみを考慮した 出現区間 tex2html_wrap1502 も考慮する。 この場合、適合率の定義は

displaymath1514

となる。

但し、適合率だけを元にこれらの曖昧な区間の判断をすると、特に閾値が低くなっ てきた場合に、無意味なルールが導出されてしまう。 そのため、正区間の被覆率が閾値よりも大きい場合、つまり着目している解析子 a と候補 s が妥当なものだと判断された場合に限り、混合区間と出現区間 の適合率を求め、大きい方の適合率が正区間の被覆率よりも大きい時には、その 区間をルール区間として導出する。

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997