まとめ

Next: 今後の課題 Up: 結論 Previous: 結論

まとめ

本論文では、多種多様な観点に基づいて分類されている文書集合から分類ルールを導出するための枠組と、実際に自分のメイルを対象に実験を行った結果について述べた。
まず、あらゆる観点に基づく分類方法に対応するために、アトムと呼ばれる文書の最小構成単位を導入し、このアトムをどのように定めるかという部分の自由度で分類の観点の多様性に対応することにした。そして文書中のアトムの出現頻度を用いて、頻度解析を行なうことによってルールを導出するという方針を示した。
この枠組を実装し、自分のメイルを対象として実験を行なった。アトムとして、空白や改行で区切られる文字列等を用いた結果、メイルの10% を用いて導出したルールを全体に適用して、70% の確率で正しく分類できた。更に導出されたルールを検討し、文書の意味と結び付かないようなルールが 30% を占めていることを明らかにした。
この実験により、
人間が意味を考えて行った分類法を、字面だけの解析からでもかなりの精度で追従できること
文書の内容と無関係なアトムでも、意味的な分類の観点が反映していて、その分類法を説明できるものがあること
文書の意味を表していない文字列も考慮することによって、キーワードによる分類を補うことができること
の3点が分かった。更に、本研究の基本的な考えである

screen830
の妥当性を強く示唆するものとなった。