No.21876 サンプル数が30以上で正規分布するのでしょうか  【初学者】 2015/12/14(Mon) 16:10

青木先生,お世話になっております。

大変基本的な質問であり,既出でしたら,申し訳ありません。

ネット上に,「一般にサンプル数が30以上であれば,正規性を仮定できる(中心極限定理により,標本数が多い場合,母集団分布が何であれ,標本平均は正規分布に従う?)」という記事が幾つかあります。

しかし,ここの過去ログを拝見しますと,「サンプル数をいくら増やしても,母集団が正規分布になっていなければ,正規分布に近づくことはない」という記事がありました。

もし可能でしたら,上記の矛盾を,わかりやすくご教授いただけませんでしょうか。
現在,データの正規性を仮定してパラメトリック解析にしようかどうか悩んでおります。

No.21877 Re: サンプル数が30以上で正規分布するのでしょうか  【青木繁伸】 2015/12/14(Mon) 16:18

> サンプル数をいくら増やしても,母集団が正規分布になっていなければ,正規分布に近づくことはない

の URL は?

No.21878 Re: サンプル数が30以上で正規分布するのでしょうか  【初学者】 2015/12/14(Mon) 16:54

青木先生

早速のお返事感謝致します。

以下の記事を見直しましたところ,こちらの勘違いで,回答が書いてありました。大変失礼いたしました。

http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc038/00425.html

>>正規分布を用いる検定や推定(たとえば母平均の検定や推定)で,母分布がどのような分布に従っていようが,そこから取り出される標本の平均値は正規分布に従うということ(任意の分布に従う多数の確率変数の和は正規分布に近似される)。
しかし,母平均の検定や推定が,母分布が正規分布に従わないときに意味があるかどうかは全くの別問題。母分布が正規分布でない場合には平均値よりは中央値を対象にした方がよいし,そうすればノンパラメトリックな検定・推定になるだろうということでしょう。

小生の勘違いは解消できました。標本平均値を理解しておりませんでした。
と いうことは,母集団の分布が不明で,サンプルが30以上の時は,コルモゴロフ–スミルノフ検定などをして正規性がなければ,パラメト リック解析してはいけない,ということでよろしいでしょうか。母集団の分布をきちんと把握していれば,何も問題なく,統計手法を選べるとは思うのです が・・・。

基礎から学んでおらず,的外れな考え方でしたら,申し訳ございません。

No.21879 Re: サンプル数が30以上で正規分布するのでしょうか  【青木繁伸】 2015/12/14(Mon) 21:36

ここでも何回か書きましたけど,たとえば,Mann-Whiteny 検定 も t 検定 に対して 3/π≒95% の検定効率がある。つまり,t 検定ならば 100 例で済むところを,Mann-Whitney 検定(Kruskal-Wallis 検定)ならば 1/0.95≒1.05 で,105 例くらいのデータを用意すれば同程度の検定効率が得られるいうことです。微々たる違いです。
だったらば,既定のサンプルサイズで検定するときに,t 検定だろうと Mann-Whitney 検定(Kruskal-Wallis 検定)だろうと,「ほぼ」同じということです。
ノンパラメトリック検定が,パラメトリック検定より「明らかに劣っている」などということはないということなのです。そのようなことは「幻想」です。

No.21881 Re: サンプル数が30以上で正規分布するのでしょうか  【初学者】 2015/12/16(Wed) 12:20

青木先生

大変よくわかりました,ありがとうございました。

実はパラメトリック検定にこだわっておりますのは,偏相関解析など,交絡因子を調整して解析する方法を利用したいためです。

正規性を確かめる統計解析をして,正規性がなければ,母集団の分布が不明である限り,サンプル数が30以上であっても,偏相関解析は使えないと理解したいと思います。

何度もありがとうございました。

No.21882 Re: サンプル数が30以上で正規分布するのでしょうか  【青木繁伸】 2015/12/16(Wed) 16:09

偏相関解析とは,どんな分析かな?
スピアマンの順位相関係数でも,偏相関係数は計算できます。

No.21883 Re: サンプル数が30以上で正規分布するのでしょうか  【初学者】 2015/12/17(Thu) 15:36

青木先生

何度もありがとうございます。偏順位相関係数(partial rank order correlation coefficient)というものがあるとは,知りませんでした。
http://aoki2.si.gunma-u.ac.jp/lecture/Corr/p-corr.html
青木先生のRの式は,以下でよろしかったでしょうか。
http://aoki2.si.gunma-u.ac.jp/R/partial-cor.html

偏相関分析により,制御変数(交絡因子)を用い,その影響を取り除いて,相関をみたいのです。
小生の場合ですと,年齢という交絡因子による影響を除いて,ある二つの変数の相関をみたかったのです。
また,ANCOVAもしたかったので,パラメトリック検定にこだわっておりました。

ANCOVAは正規性がなければできませんが,偏相関については,正規性がなくてもできることがわかりました。

No.21884 Re: サンプル数が30以上で正規分布するのでしょうか  【青木繁伸】 2015/12/17(Thu) 21:16

> ANCOVAは正規性がなければできませんが,

多変量解析で,「全ての変数が正規分布に従い,全体も多変量正規分布に従う」などと言うことを確認した上で分析しているなんてものは,見たことがないし(たぶん不可能)。
0/1の二値変数も使うことが多いので,潜在的には正規分布を仮定するなどとしているのだけど,理論的にごりごり押し通すなんてのは,現実的ではないと思います。

No.21885 Re: サンプル数が30以上で正規分布するのでしょうか  【初学者】 2015/12/21(Mon) 11:49

青木先生

ご回答ありがとうございます。

>理論的にごりごり押し通すなんてのは,現実的ではないと思います。

申し訳ございませんが,さらに頭が混乱してしまいました・・・。
正規分布から大幅にずれていなければパラメトリック解析を使ってよいとしても,それはどうやって判断するのでしょうか・・・。
正規性の解析をして,そのp値をみて,正規性がviolateされているのに,パラメトリック解析を使って,その結果を論文で報告することに,後ろめたさ?を感じてしまいます・・・。

最後は,ヒストグラムをみて確かめるしかないのでしょうか。

No.21886 Re: サンプル数が30以上で正規分布するのでしょうか  【青木繁伸】 2015/12/21(Mon) 22:01

> 正規分布から大幅にずれていなければパラメトリック解析を使ってよいとしても,それはどうやって判断するのでしょうか・・・。

第三者が吉とするレベルでしょう。先行研究,先行論文が参考になるでしょう?

> 正規性の解析をして,そのp値をみて,正規性がviolateされているのに,パラメトリック解析を使って,その結果を論文で報告することに,後ろめたさ?を感じてしまいます・・・。

普通の先行研究では,そのような「後ろめたさ」は不要であると言っているのも同然でしょう?

> 最後は,ヒストグラムをみて確かめるしかないのでしょうか。

「ヒストグラム」で確かめられるようなものではないし,その必要もないだろうといっておりますが...

「長いものには巻かれろ」というか,「先例に従え」ということです。
簡単なことでしょう?

No.21891 Re: サンプル数が30以上で正規分布するのでしょうか  【初学者】 2016/01/12(Tue) 10:29

青木先生

お礼がおくれまして,申し訳ございません。
統計学が,数学と,現実世界の現象のはざまの学問であり悩みましたが,
「長いものには巻かれろ」「先例に従え」でよろしいとは知りませんでした。

本年もご教授,よろしくお願い申し上げます。

● 「統計学関連なんでもあり」の過去ログ--- 047 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る