No.17176 K-means法初心者です。  【やました】 2012/07/13(Fri) 14:10

アンケートの回答をしてくれた人(サンプル数)は120人。
質問項目は14項目。
その質問項目のうち,二つは数値を直接入力してもらうもので,0〜最大で100までの数値がランダムに入っています。
残りの12項目は,「○○には満足していますか?」というもので,3が満足している,2がどちらでもない,1が満足していない,という3段階のデータです。

とりあえず,K-meansで解析してみたところ,感覚にも合うし,面白い結果が出たのですが,上司から,「カテゴリデータで本当に分析できるのか確認するように」といわれ,ネットで検索してみた所,どうもダメな感じがします。

せっかく面白い結果がでたのに,使えないと知って,かなり悔しいのですが,なぜダメなのでしょうか。
ある空間上にある点の重心を求めて,近いものを集めるという方法なら,たとえ0と1のデータでも12軸もあったらできそうな気がするのですが。。。

また,そのあたりが,わかりやすく書いてある本やホームページのサイトがあったら,教えていただけないでしょうか。

最近,クラスタを始めたばかりの初心者なので,不可思議なことを書いているかもしれませんが,どうかよろしくお願いします。

また,この質問は他の掲示板(○ahoo!)で質問したのですが,回答が得られず,さらに困っています。
どうかよろしくお願いします!!!

No.17177 Re: K-means法初心者です。  【青木繁伸】 2012/07/13(Fri) 14:17

> 残りの12項目は,「○○には満足していますか?」というもので,3が満足している,2がどちらでもない,1が満足していない,という3段階のデータ

が,問題なわけです。
1,2,3 の平均値を取れないでしょう(取ったとしても,正しいかどうか疑問でしょう)

あなたが「たとえ0と1のデータでも」といっているように,0/1 データ(ダミー変数)ならば平均値を取れます(比率になるので意味もあります)。

ですから,1,2,3 をダミー変数にすればよいのです。カテゴリーが3個の場合,2つのダミー変数を使います。ので,12個のカテゴリー変数の場合,計24個のダミー変数を使うことになります。

No.17178 Re: K-means法初心者です。  【やました】 2012/07/13(Fri) 14:19

はじめましての挨拶が抜けました。
失礼しました。

私は重回帰分析は,かなりやってきたのですが,k-means法を使うように上司から言われて,参考資料もあまり良いものがなくて困っています。
これから買いに行こうと思っています。

使っているソフトはSPSSとstat warksです。

一生懸命勉強しますので,どうかよろしくお願いします。

No.17181 Re: K-means法初心者です。  【やました】 2012/07/13(Fri) 17:53

私の始めましての挨拶より先に回答いただいてしまって,すみません。

>12個のカテゴリー変数の場合,計24個のダミー変数を使うことになります。

ここの部分ですが,質問させてください。

?
カテゴリ1 みかんが好き=1 嫌い=2
カテゴリ2 りんごが好き=3 嫌い=4
カテゴリ3 スイカが好き=5 嫌い=6
   …       …
カテゴリ12 メロンが好き=23 嫌い=24

という1〜24のダミー変数ならできるという意味ですか?

?
カテゴリ1〜12全てにおいて,
「好き=1,嫌い=0」
という意味でしょうか?

?は私的には,k-meansの空間上にある点の重心を求めて,近いものを集めるという方法ならできそうな気がするのですが,実はstatworksのサービスセンターに問い合わせたところ,1/0はできないと言われています。

No.17184 Re: K-means法初心者です。  【青木繁伸】 2012/07/14(Sat) 09:20

> 3が満足している,2がどちらでもない,1が満足していない

各問ごとに2つのダミー変数を用意するというのは,
         ダミー変数1 ダミー変数2
満足している      0      0
どちらでもない     1      0
満足していない     0      1
のようにするということです。
元の変数 ダミー変数1 ダミー変数2
3       0       1
1       0       0
1       0       0
2       1       0
3       0       1
2       1       0
のように1つの変数のデータが2つのダミー変数のデータとして使われるということです。

ダミー変数についてちゃんと理解するために,
http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/dummy-variable/dummy.html
なども参照してください。

> statworksのサービスセンターに問い合わせたところ,1/0はできないと言われています。

あなたの質問をちゃんと理解してもらえなかったのかな?
0/1 データであっても,距離も平均もちゃんと計算できます。

丸付き数字を使わないように

No.17192 Re: K-means法初心者です。  【やました】 2012/07/15(Sun) 16:47

青木先生

大変丁寧な回答ありがとうございます。
その方法で計算してみます。

k-meansは初心者で,参考にできそうな資料も少なくて,困っていた所です。
これからもう少し勉強して,次はもう少しまともな質問ができたらと思っています。

丸付き数字も,申し訳ありませんでした。

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る