No.15709 Re: Over-fittingについて 【青木繁伸】 2011/11/21(Mon) 20:22
対象サンプルサイズ(イベント数)と独立変数の数の関係,判別係数に有意でないものが含まれていないかとか,一般的な観点からの判断だと思いますよ。
査読者も「どの変数が含まれているから問題だ」というのではないので,一般的な観点からの再考を望まれているのではないでしょうか?
No.15714 Re: Over-fittingについて 【Hide】 2011/11/22(Tue) 09:32
ありがとうございます。
漠然とした質問ですみませんでした。もう少し具体的に書きます。お時間がありまし たらお教えいただきたいと存じます。臨床手技を行った時に合併症を起こしやすいかどうかを,その患者の病変の特性と手技に伴うものとをそれぞれ検討してい ます。以下にその表を提示します。pre-procefuralと言うのは患者の背景と,CTで病変を確認した際に認められた所見のうち単変量解析で有意 差のあったものを多変量ロジスティック回帰分析した結果です。
Pre-procedural variables OR 95% CI p value
R index 連続変数 1.32 0.4-4.9 0.68
CPC ダミー変数 49 9-273 <0.0001
Minimum CT value 連続変数 0.979 0.96-0.99 0.0170
DL ダミー変数 11 1-118 0.0465
これをさらに手技を行う際に指標となるようなデータを加えてさらに多変量ロジスティック回帰分析をしたものが以下です。
Post-procedural variables OR 95%CI p value
Remodeling index 連続変数 1.4 0.31-6.40 0.66
CPC ダミー変数 72 11-476 <0.0001
Minimum CT value 連続変数 0.976 0.96-0.996 0.0177
DL ダミー変数 18 1.7-191 0.0155
Reference diameter 連続変数 1.7 0.59-4.78 0.34
Procedural pressure 連続変数 1.3 1.1-1.6 0.004
このように手技前の予測因子と,手技による予測因子をそれぞれ検討したつもりでしたが,これについて以下のようにreiewされました。
The number of variables submitted to the models, especially when
both sets of predictors are included, results in an over-fitted
model. Please address.
つ まり,同じ独立変数のセットをほかの予測因子を更に加え,結果として2回検討しているのが問題ということなのでしょうか?確かに下の表だけで十分だと考え ておりますが,事前の予測因子というものを強調するあまり上記のようにしてしまいました。根本的に問題なのであれば,pre-proceduralという ものは省こうかとも考えております。
統計的手法以外の点ではこの論文はほとんど通りそうな状態です。教えていただければ幸いです。
No.15715 Re: Over-fittingについて 【Hide】 2011/11/22(Tue) 10:18
表が見づらいので再度投稿いたします。
Pre-procedural variables OR 95% CI p value
R index 連続変数 1.32 0.4-4.9 0.68
CPC ダミー変数 49 9-273 <0.0001
Min CT value 連続変数 0.979 0.96-0.99 0.0170
DL ダミー変数 11 1-118 0.0465
post-procedural variables OR 95%CI p value
R index 連続変数 1.4 0.31-6.40 0.66
CPC ダミー変数 72 11-476 <0.0001
Min CT value 連続変数 0.976 0.966-0.996 0.0177
DL ダミー変数 18 1.7-191 0.0155
Ref. diameter 連続変数 1.7 0.59-4.78 0.34
pressure 連続変数 1.3 1.1-1.6 0.004
No.15716 Re: Over-fittingについて 【青木繁伸】 2011/11/22(Tue) 11:16
> 単変量解析で有意差のあったものを多変量ロジスティック回帰分析
多くの論文で,ひな形のように使われる分析方法ですが,毎回指摘するとおり,根本的に間違っています。単変量の結果を寄せ集めても多変量の結果にはなりません。
R index 連続変数 1.32 0.4-4.9 0.68
Ref. diameter 連続変数 1.7 0.59-4.78 0.34
DL ダミー変数 11 1-118 0.0465 (ぎりぎりだけど)
のような,有意ではない独立変数が入っていることで,over-fitting になっている可能性があるでしょう。
対象サンプルサイズ(イベント数)については,お答えがないのですが?
No.15718 Re: Over-fittingについて 【Hide】 2011/11/22(Tue) 12:42
失礼しました。サンプルサイズは合併症群40例,対照群は同様な治療群から合併症を起こさなかった無作為抽出の59例です(60例を無作為抽出したのですが,後から1例は除外基準に該当することが判明し除外せざるを得なくなった次第です)。
Reviewerも統計学者以外はわかっていないようで,ほとんどOKの返事なのです。しかし,せっかく投稿するのだから間違った手法や間違った解析は載せてはいけないですね。
>多くの論文で,ひな形のように使われる分析方法ですが,毎回指摘するとおり,根本的に間違っています。単変量の結果を寄せ集めても多変量の結果にはなりません
この場合多変量解析はどのような手法が正しいのでしょうか?
No.15719 Re: Over-fittingについて 【青木繁伸】 2011/11/22(Tue) 12:49
最初から全変数を対象にして変数選択により最終的なモデルを決めるのです。
「有意ではない独立変数が入っていることで,over-fitting になっている可能性があるでしょう」というのには回答がないのですか。
No.15720 Re: Over-fittingについて 【Hide】 2011/11/22(Tue) 13:11
了解しました。ありがとうございます。頑張ってやってみます!
No.15723 Re: Over-fittingについて 【Hide】 2011/11/22(Tue) 17:50
>「有意ではない独立変数が入っていることで,over-fitting になっている可能性があるでしょう」というのには回答がないのですか。
有意でない独立変数を全て省いてしまって良いものなのでしょうか?
No.15724 Re: Over-fittingについて 【青木繁伸】 2011/11/22(Tue) 18:03
逆に質問しますが,なぜ有意でない独立変数を含めるのですか。
理論的に必要とか先行研究と比較するというのならばそのような変数を含めるのは何ら差し支えないですけど。
● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る