問題解決のためのデータ分類はとても重要ですが、クラスター分析は、非常によく使われるなデータ分類方法の一つ。
クラスター分析においては、一塊のデータの塊を固体(クラスター)と呼び、定量差を個体間の違いを表し距離と呼ぶ。一つの新しいクラスターに距離の小さい個体をまとめるという作業を繰り返すため、似ているもの同士のグループを作っていくことがクラスター分析と考えればよい。
クラスター分析には、その手順によって3つのアプローチがある。
続きを読む »
①階層的な手法
階層的な手法というのは、同じような個体を同じグループにしながら徐々にクラスター数を減らす手法。当初は、データの数とクラスターの数が一緒になっているものを、似ているものから順にクラスターを融合していくため、アイディアをまとめるときに使われる「KJ法」に似ています。
クラスター間の融合の順序とその類似度を表す樹形図は、「デンドログラム」と呼ばれ、トーナメント表のような形をしています。左の方で結合しているほど近い個体でありう、各個体を示す棒の長さがその距離を示すのがデンドログラムです。
②非階層的な手法
非階層的な手法では最初に絞り込んだ数のクラスターを設定するのが特徴で、順に近い個体を融合させていく階層的手法とは異なるアプローチです。代表例は「K-means法」と呼ばれ、あらかじめ決めたクラスターの代表を「プロトタイプ」として設定し、そのプロトタイプにもっとも似ているデータを、さらにプロトタイプとして設定し、平均値(mean)を用いることからK-means法(K値の平均値)と呼ばれます。
③ファジー手法
大抵の場合、個体のクラスターが複数のクラスターに属します。そこで、Aグループに●●%、Bグループに▲▲%等、個体がクラスターへどの程度、所属しているかを曖昧に表そうとするファジー手法があります。「Fuzzy C-Means(FCM)法」などが代表的なファジー手法で、K-means法と同様あらかじめ決められ数のクラスターのそれぞれの代表となるプロトタイプを設定してデータ分類を行いますが、それぞれの個体が所属するクラスターが唯一になるのではなく、所属度合いを表す値を与える。朝に飲む飲み物のジャンルを分ける際に「コーヒー」と「紅茶」のクラスターがあっと場合、ファジー手法においては「コーヒーのみ」や「紅茶のみ」と分けるのではなく、「コーヒー:紅茶=8:2」といった分類が可能となり、データの特徴をより的確に反映することが出来る。
« 続きを隠す