No.16752 主成分分析に用いる変数の選択について  【医療関係者】 2012/04/11(Wed) 16:54

以下の手順が,統計として誤っているか判断がつきかねましたので,ご教示いただければと思い,書き込ませていただきました。

研究では,二つのグループ(各n=100)に差があるか否か,差がある場合にはどのような差があるかということを,約400個の変数を用いて説明したいと考えています。

ま ず,400個全ての変数についてt検定を行ったところ,約150個の変数について有意の差を認めました。有意の差を認めた変数が多すぎるため,どのような 差があるか把握しにくいと考え,有意の差を認めた150個の変数を用いて,主成分分析を行ったところ,第一主成分が二つのグループをうまくわけるような軸 となりました。重みを検討ところ,どのような差があるのかが説明がしやすくなりました。

上記のように,主成分分析に使う変数を選択することは間違えているのでしょうか。
通常は,400個の変数をそのまま主成分分析して,というのはよく見かけるのですが,選択する変数によってできる軸が異なってきます。着目したい軸ができるように上記の操作を行うのはおかしいことでしょうか。。

勉強中で,まったく見当違いなことをしているのかもしれません。ご教示いただければ幸いです。

No.16756 Re: 主成分分析に用いる変数の選択について  【青木繁伸】 2012/04/11(Wed) 18:08

> 有意の差を認めた150個の変数を用いて,主成分分析を行った
> 主成分分析に使う変数を選択することは間違えているのでしょうか。

変数を選択することは間違いではないけど,有意差を認めた変数だけを選択するというのは間違いです。(単変量解析の結果を寄せ集めても多変量解析にはならない)

> 400個の変数をそのまま主成分分析して,というのはよく見かけるのですが,選択する変数によってできる軸が異なってきます。

400個の変数全部を使えば良いでしょう。そのあとで,寄与率や主成分負荷量の小さい変数を除外するなどということにより変数選択をするのは,アリでしょう。

R なら prcomp 関数を使えば,変数の個数よりサンプルサイズが小さい場合でもちゃんと主成分分析できます。

なお,このデータの場合,t検定や主成分分析を用いるよりはロジスティック回帰分析の方がよいのではないかと思います。

No.16757 Re: 主成分分析に用いる変数の選択について  【医療関係者】 2012/04/11(Wed) 23:42

早速ご返答いただきありがとうございました。
やはり間違いなのですね。。いままでそのようなことをした論文を見たことがなかったので,きっとしてはいけないことなのかもしれない,と考えてはいたのですが,お伺いして,すっきりしました。ロジステック回帰分析も試してみようと思います。
大変助かりました。ありがとうございました。

No.16792 Re: 主成分分析に用いる変数の選択について  【医療関係者】 2012/04/19(Thu) 17:36

先日はありがとうございました。関連して,追加で質問がございます。

ご指摘いただいたように,Rでロジスティック回帰分析を行ってみたところ,アルゴリズムが収束しないという結果になってしまいました。そもそも,検討していくうちに,多重共線性を認める変数があるので,回帰分析はできないのではないかと判断しました。

また,400個の変数全てで主成分分析はできたのですが,主成分が二つのグループをわける軸とは少し違った軸となってしまいました。それでも寄与率を使って変数を減らすというのは合理的な方法でしょうか。

できれば,数学的に変数を減らして説明したいのですが,どのような方法が適切かわからず困っています。どのようにしたらよいものでしょうか,,

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る