#18 データ分析手法(クラスター分析)

 [公開]
icon 秋山 賢 が 2018/08/06 1:22 に投稿
  投稿を編集(サインイン)
  ストック
  アンケート回答

  目次

クラスター分析

クラスター(cluster)とは、群れ、集団という意味で、データ全体をお互いに似通ったものをあつめて何個かの群(グループ、集合)に分類する分析手法です。

データを「階層化して集団化する」か「階層化せずに集団化する」かの差異で、以下の2種類の方法に分類られます。
・階層クラスター分析
・非階層クラスター分析

階層クラスター分析

階層クラスター分析は、対象データを最も似ているものから順に並べて整理していき、その途中過程を階層のように表して(樹形図)いき、最終的に一つの集団まとめる手法です。

「階層クラスター分析のイメージ」
image-20180805135233829.png

似ているかをどう定義するのか。
クラスター分析では、データの個体間の距離を用います。つまり「似たもの」というのは「距離が近いもの」と考えます。

クラスター間の距離を定義する手法もいろいろあり、代表的なものは以下があります。

⓵最短距離法(最近隣法)
2つのクラスターの各々の中から一つづつ点を選択し距離を求め、その内で最も近い個体間の距離をクラスタ間の距離として用いる方法。

②最長距離法(最遠隣法)
最短距離法とは逆に、2つのクラスターの各々の中から一つづつ点を選び距離を求め、その内で最も遠い個体間の距離をクラスタ間の距離として用いる方法。

③群平均法
2つのクラスターの各々の中から一つづつ点を選び距離を求め、その個体間の距離の平均をクラスター間の距離として用いる方法。

④ウォード法(最小分散法)
2つのクラスターをまとめたときに、データのバラツキが最小になるクラスターになるようにまとめる方法。

⑤セントロイド法 (重心法)
クラスター内のデータの重心を求めて、重心間の距離をクラスター間の距離として用いる方法。

⑥メジアン法
重心法で距離を計算する際の重みをクラスター間で等しくした場合の方法。

階層クラスターのメリット

近いものから順番にクラスターを作っていく方法なので、あらかじめクラスターの数を決めておく必要がないことや出来上がった樹形図を使用しながら後からクラスター数を決めて分類していくことも可能たことです。
また、樹形図からどのクラスター同士がどんな感じで繋ぎ合わせされるかいう階層結びつきを一目で理解する事ができます。

階層クラスターのデメリット

クラスター数を決める必要がないことで、分類の対象の数が多いケースは計算量が膨大になったり、結果から出来上がる樹形図が巨大になり結果が不明瞭になってしまう事があげられます。

非階層クラスター分析

非階層クラスター分析は、階層クラスター分析と異なり予め最初にいくつのクラスターに分類するのか、クラスター数を決めた上で分類の対象をクラスターに分類していく手法です。
代表的な手法は、「k-means法」というものがあります。

非階層クラスターのメリット

あらかじめクラスター数を決めることになるため、分類の対象となるサンプル数が多くても計算量が膨大になることがありません。
また、分析の結果が階層を表す樹形図になることもないので、膨大なサンプル数を分析しても計算量が多くなりすぎたり、分析結果が不明瞭で分かりづらくなることもありません。

非階層クラスターのデメリット

あらかじめいくつのクラスターに分けるか決定しておかなければならない点です。
具体的な仮説がないと分類しづらいため、どのような目的でどういった分析を行うのかあらかじめ充分に決めておく必要があります。

 添付ファイル     - [1]


 コメント追加