No.15707 Over-fittingについて  【Hide】 2011/11/21(Mon) 14:57

冠動脈病変を治療した時にどのような病変形態が合併症を起こすかを解析して論文投稿しました。高脂血症のありなしやCT値 などいくつかの変数を入れて多変量ロジスティック解析を行い,独立した危険因子を報告しようとしております。この統計解析においてover- fittingの可能性があるからよろしく考慮しなさいというレヴューが帰ってきました。連続変数については多重共線性が無いかを相関係数を用いて検討し たのですが,over-fittingの検討はおそらくこれだけではダメなのですよね?更に何を行えば良いのでしょうか?

No.15709 Re: Over-fittingについて  【青木繁伸】 2011/11/21(Mon) 20:22

対象サンプルサイズ(イベント数)と独立変数の数の関係,判別係数に有意でないものが含まれていないかとか,一般的な観点からの判断だと思いますよ。
査読者も「どの変数が含まれているから問題だ」というのではないので,一般的な観点からの再考を望まれているのではないでしょうか?

No.15714 Re: Over-fittingについて  【Hide】 2011/11/22(Tue) 09:32

ありがとうございます。
漠然とした質問ですみませんでした。もう少し具体的に書きます。お時間がありまし たらお教えいただきたいと存じます。臨床手技を行った時に合併症を起こしやすいかどうかを,その患者の病変の特性と手技に伴うものとをそれぞれ検討してい ます。以下にその表を提示します。pre-procefuralと言うのは患者の背景と,CTで病変を確認した際に認められた所見のうち単変量解析で有意 差のあったものを多変量ロジスティック回帰分析した結果です。

Pre-procedural variables     OR 95% CI p value
R   index    連続変数  1.32 0.4-4.9   0.68
CPC      ダミー変数 49 9-273 <0.0001
Minimum CT value 連続変数 0.979 0.96-0.99 0.0170
DL     ダミー変数  11 1-118 0.0465

これをさらに手技を行う際に指標となるようなデータを加えてさらに多変量ロジスティック回帰分析をしたものが以下です。 
Post-procedural variables       OR 95%CI p value
Remodeling index  連続変数    1.4  0.31-6.40  0.66
CPC         ダミー変数   72   11-476   <0.0001
Minimum CT value  連続変数    0.976  0.96-0.996 0.0177
DL          ダミー変数   18     1.7-191 0.0155
Reference diameter   連続変数     1.7  0.59-4.78 0.34
Procedural pressure 連続変数    1.3  1.1-1.6  0.004

このように手技前の予測因子と,手技による予測因子をそれぞれ検討したつもりでしたが,これについて以下のようにreiewされました。
The number of variables submitted to the models, especially when
both sets of predictors are included, results in an over-fitted
model. Please address.

つ まり,同じ独立変数のセットをほかの予測因子を更に加え,結果として2回検討しているのが問題ということなのでしょうか?確かに下の表だけで十分だと考え ておりますが,事前の予測因子というものを強調するあまり上記のようにしてしまいました。根本的に問題なのであれば,pre-proceduralという ものは省こうかとも考えております。
統計的手法以外の点ではこの論文はほとんど通りそうな状態です。教えていただければ幸いです。

No.15715 Re: Over-fittingについて  【Hide】 2011/11/22(Tue) 10:18

表が見づらいので再度投稿いたします。
Pre-procedural variables  OR   95% CI   p value
R   index 連続変数  1.32  0.4-4.9   0.68
CPC      ダミー変数   49   9-273  <0.0001
Min CT value 連続変数   0.979  0.96-0.99  0.0170
DL      ダミー変数   11   1-118   0.0465

post-procedural variables   OR   95%CI    p value
R   index  連続変数   1.4  0.31-6.40   0.66
CPC     ダミー変数   72   11-476   <0.0001
Min CT value  連続変数  0.976 0.966-0.996  0.0177
DL      ダミー変数   18    1.7-191    0.0155
Ref. diameter 連続変数   1.7  0.59-4.78 0.34
pressure 連続変数   1.3  1.1-1.6  0.004

No.15716 Re: Over-fittingについて  【青木繁伸】 2011/11/22(Tue) 11:16

> 単変量解析で有意差のあったものを多変量ロジスティック回帰分析

多くの論文で,ひな形のように使われる分析方法ですが,毎回指摘するとおり,根本的に間違っています。単変量の結果を寄せ集めても多変量の結果にはなりません。

R   index 連続変数  1.32  0.4-4.9   0.68
Ref. diameter 連続変数   1.7  0.59-4.78 0.34
DL      ダミー変数   11   1-118   0.0465 (ぎりぎりだけど)

のような,有意ではない独立変数が入っていることで,over-fitting になっている可能性があるでしょう。

対象サンプルサイズ(イベント数)については,お答えがないのですが?

No.15718 Re: Over-fittingについて  【Hide】 2011/11/22(Tue) 12:42

失礼しました。サンプルサイズは合併症群40例,対照群は同様な治療群から合併症を起こさなかった無作為抽出の59例です(60例を無作為抽出したのですが,後から1例は除外基準に該当することが判明し除外せざるを得なくなった次第です)。

Reviewerも統計学者以外はわかっていないようで,ほとんどOKの返事なのです。しかし,せっかく投稿するのだから間違った手法や間違った解析は載せてはいけないですね。

>多くの論文で,ひな形のように使われる分析方法ですが,毎回指摘するとおり,根本的に間違っています。単変量の結果を寄せ集めても多変量の結果にはなりません

この場合多変量解析はどのような手法が正しいのでしょうか?

No.15719 Re: Over-fittingについて  【青木繁伸】 2011/11/22(Tue) 12:49

最初から全変数を対象にして変数選択により最終的なモデルを決めるのです。

「有意ではない独立変数が入っていることで,over-fitting になっている可能性があるでしょう」というのには回答がないのですか。

No.15720 Re: Over-fittingについて  【Hide】 2011/11/22(Tue) 13:11

了解しました。ありがとうございます。頑張ってやってみます!

No.15723 Re: Over-fittingについて  【Hide】 2011/11/22(Tue) 17:50

>「有意ではない独立変数が入っていることで,over-fitting になっている可能性があるでしょう」というのには回答がないのですか。

有意でない独立変数を全て省いてしまって良いものなのでしょうか?

No.15724 Re: Over-fittingについて  【青木繁伸】 2011/11/22(Tue) 18:03

逆に質問しますが,なぜ有意でない独立変数を含めるのですか。

理論的に必要とか先行研究と比較するというのならばそのような変数を含めるのは何ら差し支えないですけど。

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る