---------------------------------------------------------------------

next up previous contents
Next: システムの構成 Up: 研究の概要 Previous: 研究の概要

---------------------------------------------------------------------

研究の方針

本研究では、予め何らかの規則に従って分類されている文書集合から、その分類 ルールの導出を試みる。

本研究の基本となる考えは、

screen53

というものである。 そこで、ルール導出とは、各グループに対して、その頻度分布が全体に対して偏っ ているアトムを探し出すことであると定義する。

アトムとは、例えば1つ1つの文字であったり、または単語のことであったりする が、基本的に、文書の意味的内容に踏み込むことなく抽出できるものであるとす る。 ルール導出の際には、まずどのようなアトムの切り出し方をすれば良いのか、そ の抽出方法を検討し、次いでどのアトムの頻度分布が偏っているのかを、頻度解 析を行って探索する。 仮にアトムの抽出法として、単語ごとに区切るという方法を採用すると、いわゆ るキーワード抽出と同じことになる。 逆に言えば、本研究はキーワードを用いた分類に関する研究の1つ前の段階に位 置し、頻度解析を行う前に、「何の」頻度を解析するかを検討するという方針で あるということになる。

尚、本研究で行う解析は文書独立である。 即ち、例えばあるメイルに対するリプライメイルのような、文書間の依存関係や 相関性といった情報は利用せず、各文書が持つ情報のみを扱う。

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997