k-meansクラスタリングを使用する場合、kをどのように決定しますか? 質問する

Question

ベイズ情報量基準 (BIC) を最大化できます。

BIC(C | X) = L(X | C) - (p / 2) * log n

ここで、はモデルによるL(X | C)データセットの対数尤度、はモデルのパラメータ数、はデータセットの点数です。XCpCn「X-means: 拡張け-クラスター数を効率的に推定する手段"ICML 2000 の Dan Pelleg と Andrew Moore による。

別のアプローチとしては、大きな値から始めてk、記述の長さが減らなくなるまで重心を削除し続ける（kを減らす）というものがあります。「堅牢なベクトル量子化のための MDL 原理」ホルスト・ビショフ、アレス・レオナルディス、アレクサンダー・セルブ著パターン分析と応用第2巻、p.59-72、1999年。

最後に、1つのクラスターから始めて、各クラスターに割り当てられたポイントがガウス分布を持つまでクラスターを分割し続けることができます。「学ぶけでけ-手段"(NIPS 2003)、Greg Hamerly と Charles Elkan は、これが BIC よりも効果的であること、また BIC ではモデルの複雑さを十分に厳しく罰しないことを示す証拠を示しています。

Answer 1

ベイズ情報量基準 (BIC) を最大化できます。

BIC(C | X) = L(X | C) - (p / 2) * log n

ここで、はモデルによるL(X | C)データセットの対数尤度、はモデルのパラメータ数、はデータセットの点数です。XCpCn「X-means: 拡張け-クラスター数を効率的に推定する手段"ICML 2000 の Dan Pelleg と Andrew Moore による。

別のアプローチとしては、大きな値から始めてk、記述の長さが減らなくなるまで重心を削除し続ける（kを減らす）というものがあります。「堅牢なベクトル量子化のための MDL 原理」ホルスト・ビショフ、アレス・レオナルディス、アレクサンダー・セルブ著パターン分析と応用第2巻、p.59-72、1999年。

最後に、1つのクラスターから始めて、各クラスターに割り当てられたポイントがガウス分布を持つまでクラスターを分割し続けることができます。「学ぶけでけ-手段"(NIPS 2003)、Greg Hamerly と Charles Elkan は、これが BIC よりも効果的であること、また BIC ではモデルの複雑さを十分に厳しく罰しないことを示す証拠を示しています。

k-meansクラスタリングを使用する場合、kをどのように決定しますか? 質問する

ベストアンサー1

おすすめ記事