Next: システムの構成 Up: 研究の概要 Previous: 研究の概要 |
研究の方針本研究では、予め何らかの規則に従って分類されている文書集合から、その分類 ルールの導出を試みる。 本研究の基本となる考えは、 というものである。 そこで、ルール導出とは、各グループに対して、その頻度分布が全体に対して偏っ ているアトムを探し出すことであると定義する。 アトムとは、例えば1つ1つの文字であったり、または単語のことであったりする が、基本的に、文書の意味的内容に踏み込むことなく抽出できるものであるとす る。 ルール導出の際には、まずどのようなアトムの切り出し方をすれば良いのか、そ の抽出方法を検討し、次いでどのアトムの頻度分布が偏っているのかを、頻度解 析を行って探索する。 仮にアトムの抽出法として、単語ごとに区切るという方法を採用すると、いわゆ るキーワード抽出と同じことになる。 逆に言えば、本研究はキーワードを用いた分類に関する研究の1つ前の段階に位 置し、頻度解析を行う前に、「何の」頻度を解析するかを検討するという方針で あるということになる。 尚、本研究で行う解析は文書独立である。 即ち、例えばあるメイルに対するリプライメイルのような、文書間の依存関係や 相関性といった情報は利用せず、各文書が持つ情報のみを扱う。
|
吉田 誠一のホームページ に戻る。 Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved. Sat Mar 8 05:59:11 JST 1997 |