---------------------------------------------------------------------

next up previous contents
Next: 今後の課題 Up: 結論 Previous: 結論

---------------------------------------------------------------------

まとめ

本論文では、多種多様な観点に基づいて分類されている文書集合から分類ルール を導出するための枠組と、実際に自分のメイルを対象に実験を行った結果につい て述べた。

まず、あらゆる観点に基づく分類方法に対応するために、アトムと呼ばれる文書 の最小構成単位を導入し、このアトムをどのように定めるかという部分の自由度 で分類の観点の多様性に対応することにした。 そして文書中のアトムの出現頻度を用いて、頻度解析を行なうことによってルー ルを導出するという方針を示した。

この枠組を実装し、自分のメイルを対象として実験を行なった。 アトムとして、空白や改行で区切られる文字列等を用いた結果、メイルの10% を用いて導出したルールを全体に適用して、70% の確率で正しく分類できた。 更に導出されたルールを検討し、文書の意味と結び付かないようなルールが 30% を占めていることを明らかにした。

この実験により、

  • 人間が意味を考えて行った分類法を、字面だけの解析からでもかなりの 精度で追従できること
  • 文書の内容と無関係なアトムでも、意味的な分類の観点が反映していて、 その分類法を説明できるものがあること
  • 文書の意味を表していない文字列も考慮することによって、キーワード による分類を補うことができること
の3点が分かった。 更に、本研究の基本的な考えである

screen830

の妥当性を強く示唆するものとなった。

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997