No.16257 2値(0,1)データの相関係数  【TAKA】 2012/01/21(Sat) 21:17

恐れ入りますが,ご教示いただけると幸いです。

2値(0,1)データは,比率尺度の特性を持つことから量的変数として解析できるということで,重回帰分析やピアソンの積率相関係数の計算に利用しています。

し かし,ピアソンの積率相関係数は本来,正規分布にしたがうデータを用いるべきで,2値データは正規分布ではないので,適切ではないのではないかと指摘され ました。サンプルサイズが大きければ,量的変数でも正規性をあまり気にせずに使われていることが多いようなのですが,このような場合は,ノンパラ(スピア マンの順位相関係数)を利用したほうがよいのでしょうか?

テトラコリック相関係数というものもあるようですが,ピアソンとスピアマンだとどちらが適切でしょうか。

よろしくお願いいたします。

No.16258 Re: 2値(0,1)データの相関係数  【青木繁伸】 2012/01/21(Sat) 23:14

> ピアソンの積率相関係数は本来,正規分布にしたがうデータを用いるべきで,2値データは正規分布ではないので,適切ではないのではないかと指摘されました。

> テトラコリック相関係数というものもあるようですが

馬鹿の言うことにびくびくすることはありません。

テトラコリック相関係数を計算してみてください。ピアソンの積率相関係数と同じになることが分かるでしょう。

http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc020/212.html

0/1 データなら,ピアソンの積率相関係数とスピアマンの順位相関係数,ついでにケンドールの順位相関計数もテトラコリックソウカンケイスウも,ぜええええええんぶうううう 同じ値になりますますますますですよ
> n <- 100
> x <- sample(0:1, 100, replace=TRUE)
> y <- sample(0:1, 100, replace=TRUE)
> cor(x, y, method="pearson") # ピアソンの積率相関係数
[1] 0.1161314
> cor(x, y, method="spearman") # スピアマンの順位相関計数
[1] 0.1161314
> cor(x, y, method="kendall") # ケンドールの順位相関計数
[1] 0.1161314
> sqrt(chisq.test(table(x, y), correct=FALSE)$statistic/100)
X-squared # 名前は X-squared になっているけど(R の都合),これぞまさしくテトラコリック相関係数なのだ!!
0.1161314

No.16259 Re: 2値(0,1)データの相関係数  【TAKA】 2012/01/22(Sun) 08:39

青木先生

早速の大変明確なご回答誠にありがとうございます。
目から鱗が落ちました(鱗はほかにも大量についていますが。。)

引き続き勉強させていただきたいと思います。
ありがとうございます。

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る