---------------------------------------------------------------------

next up previous contents
Next: 研究の概要 Up: 従来の研究 Previous: クラスタリング

---------------------------------------------------------------------

分類規則の抽出

一方、既に分類されている文書集合から規則を抽出する研究には、自然言語処理 の立場から文書を構文的に解析し、キーワードを抽出する[8]、引い ては辞書を自動生成する[6], [7] というものが多い。 即ち、文書を、人間が理解するのと同じ過程で計算機に理解させ、意味的に解析 を行うという立場に立つものが主である。 一方本研究は、構文的・意味的な解析を行わず、字面に現れる文字列の頻度だけ を元に分類ルールの導出を試みようというものである。

頻度に基づいて分類を考える研究としては、文書を統計的に処理してキーワード 抽出を行っているもの[8]や、大量の文書データから高次元ベクトル として概念識別子を求めるという、キーワードから一歩踏み込んだ研究を行って いるもの[9]等がある。 しかし、これらは高度な自然言語処理を回避するために頻度解析を手法として用 いてはいるが、上記と同じくキーワードや辞書の作成を試みた研究である。 即ち、統計的な手法を用いて、意味的な解析を行った場合と同じ結果を得ようと いうものである。

本研究と同じく、意味的な解析とは独立して、純粋に分類の自動化を試みた研究 としては、文書中の漢字の出現頻度を解析し、分野ごとにその分野を代表する漢 字を抽出したという研究がある[10]。 この研究では、文書は日本10進分類法のような汎用の大きな分類法に従って分類 されているものとしている。 本研究はこの枠組を漢字以外の文字列に拡張した上、個人のメイルのような小さ く特異な分類がされている場合に、どのような結果が導かれるかを実験したもの である。

---------------------------------------------------------------------

吉田 誠一のホームページ に戻る。
Copyright(C) Seiichi Yoshida (comet@aerith.net). All rights reserved.
Sat Mar 8 05:59:11 JST 1997