---------------------------------------------------------------------

next up previous contents
Next: 結論 Up: 考察 Previous: ルールの精度

---------------------------------------------------------------------

ルールの内容

最後に、導出されたルールの内容、どのようなアトムが分類法を説明しているの かを検討する。

まず、実験6 の (5) を対象にした例について、導出された85個のルールの アトムを種類によって分類してみる。 解析子は、空白または改行で区切られる文字列をアトムとして切り出す ./atom 3 である。

tabular798

対象がメイルであるため、To:From: に記述されているアドレ ス、もしくは To: 等のヘッダ項目自身が有力なアトムとして多く導出さ れている。 実際、同じメイリングリストのメイルは同じグループにまとめていることが多い ため、この結果は当然である。 一方、数字、記号、その他が合わせて25個導出されている。 これらのアトムは文書の内容や意味とは無関係であるため、従来のキーワードに 関する研究では軽視されることが多かった。 しかし、導出されたルールの約3割をこのようなアトムが占めていることから、 必ずしも文書の意味と結び付く語句だけが分類を説明するものではないことが分 かる。

確認のために、(6) を対象に、今度は ./atom 5 を解析子として導出した 例(表 5.8)について、導出された90個のアトムを同じように分類 してみる。 ./atom 5 は、一連の英数字、一連の同種日本語文字、一連の記号列をア トムとして切り出す。

tabular809

(6) はヘッダ部を削除したものであるため、ヘッダ項目やアドレスは重要なアト ムとはなり得ない。 また、本文は主に日本語で書かれている上、./atom 5 は日本語文字の種 類も判定しているため、日本語がアトムとして多く導出されるのも妥当である。 ここでも先程と同じように、数字、記号、その他が合わせて30個と、全体の3分 の1を占めているが、実はこの場合、これらのアトムが影響する文書の割合で考 えると、先程よりもずっと重みが低い。 しかし、導出された英単語や日本語を良く見ると、必ずしも文書の意味を表して いるものだけとは限らないことに気づく。 例えば、

tabular815

これらは文書の意味を反映している、いわゆるキーワードと呼ばれるものである。 しかし、

tabular820

これらはそのグループの内容を表しているとは言えないため、キーワードを用い た従来研究では除外されていたものである。 つまり、その価値に於いては、数字や記号と同程度のものであると言える。

これらの結果より、直接文書の意味と結び付かないようなアトムにも、人間の行っ た意味的な分類が反映していて、その結果分類法が説明できるということが分か る。 従来は、人間が文書の意味を理解した上で分類している場合には、文書の意味を 示すキーワードだけを用いて分類ルールを説明しようとしていた。 しかし、文書の意味を表していない文字列も考慮することによって、キーワード による分類を補うことができると言える。

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997