No.17177 Re: K-means法初心者です。 【青木繁伸】 2012/07/13(Fri) 14:17
> 残りの12項目は,「○○には満足していますか?」というもので,3が満足している,2がどちらでもない,1が満足していない,という3段階のデータ
が,問題なわけです。
1,2,3 の平均値を取れないでしょう(取ったとしても,正しいかどうか疑問でしょう)
あなたが「たとえ0と1のデータでも」といっているように,0/1 データ(ダミー変数)ならば平均値を取れます(比率になるので意味もあります)。
ですから,1,2,3 をダミー変数にすればよいのです。カテゴリーが3個の場合,2つのダミー変数を使います。ので,12個のカテゴリー変数の場合,計24個のダミー変数を使うことになります。
No.17178 Re: K-means法初心者です。 【やました】 2012/07/13(Fri) 14:19
はじめましての挨拶が抜けました。
失礼しました。
私は重回帰分析は,かなりやってきたのですが,k-means法を使うように上司から言われて,参考資料もあまり良いものがなくて困っています。
これから買いに行こうと思っています。
使っているソフトはSPSSとstat warksです。
一生懸命勉強しますので,どうかよろしくお願いします。
No.17181 Re: K-means法初心者です。 【やました】 2012/07/13(Fri) 17:53
私の始めましての挨拶より先に回答いただいてしまって,すみません。
>12個のカテゴリー変数の場合,計24個のダミー変数を使うことになります。
ここの部分ですが,質問させてください。
?
カテゴリ1 みかんが好き=1 嫌い=2
カテゴリ2 りんごが好き=3 嫌い=4
カテゴリ3 スイカが好き=5 嫌い=6
… …
カテゴリ12 メロンが好き=23 嫌い=24
という1〜24のダミー変数ならできるという意味ですか?
?
カテゴリ1〜12全てにおいて,
「好き=1,嫌い=0」
という意味でしょうか?
?は私的には,k-meansの空間上にある点の重心を求めて,近いものを集めるという方法ならできそうな気がするのですが,実はstatworksのサービスセンターに問い合わせたところ,1/0はできないと言われています。
No.17184 Re: K-means法初心者です。 【青木繁伸】 2012/07/14(Sat) 09:20
> 3が満足している,2がどちらでもない,1が満足していない
各問ごとに2つのダミー変数を用意するというのは,
ダミー変数1 ダミー変数2
満足している 0 0
どちらでもない 1 0
満足していない 0 1
のようにするということです。
元の変数 ダミー変数1 ダミー変数2
3 0 1
1 0 0
1 0 0
2 1 0
3 0 1
2 1 0
のように1つの変数のデータが2つのダミー変数のデータとして使われるということです。
ダミー変数についてちゃんと理解するために,
http://aoki2.si.gunma-u.ac.jp/lecture/Regression/mreg/dummy-variable/dummy.html
なども参照してください。
> statworksのサービスセンターに問い合わせたところ,1/0はできないと言われています。
あなたの質問をちゃんと理解してもらえなかったのかな?
0/1 データであっても,距離も平均もちゃんと計算できます。
丸付き数字を使わないように
No.17192 Re: K-means法初心者です。 【やました】 2012/07/15(Sun) 16:47
青木先生
大変丁寧な回答ありがとうございます。
その方法で計算してみます。
k-meansは初心者で,参考にできそうな資料も少なくて,困っていた所です。
これからもう少し勉強して,次はもう少しまともな質問ができたらと思っています。
丸付き数字も,申し訳ありませんでした。
● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る