No.16091 多重ロジスティック回帰分析との相性の良くないデータとは?  【mizumoto】 2011/12/27(Tue) 02:10

はじめまして。
ある疾患の発症リスクとして項目1〜4の有無について多重ロジスティック回帰分析をおこないたいと 考えました。エクセル統計2010を使用したところ「ロジスティック回帰分析に不適な説明変数が含まれる可能性があるため推定を中止しました」というメッ セージが出ました。メーカーに問い合わせたところ,「他のソフト(SPSS)を用いても同様の結果となり,項目1&項目3と多重ロジスティック回帰分析と の相性が良くないことが原因です。手法の性質上このような現象が少なからず発生します。この場合,適さない変数を除いて分析するか,欠損値を何らかの値で 補うかなどの対処法をお試しください」と返答されました。欠損値のある患者を除外しても,欠損値をすべて0で補完しても,同様のエラーメッセージがでまし た。相性の良くないデータといわれてしまうと,どうしようもないのでしょうか? ご教示いただけると幸いに存じます。

参考までにデータそのものを転載します。

疾患 項目1 項目2 項目3 項目4
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 0
1 1 0 1 0
1 - 1 1 1
1 1 1 0 0
1 1 1 1 0
1 0 1 1 0
1 0 1 0 1
1 1 0 1 1
1 - 1 1 0
1 1 1 1 1
0 0 0 0 0
0 0 0 0 0
0 0 0 0 0
0 0 0 0 0
0 0 1 1 0
0 0 0 0 0
0 0 0 0 0
0 0 0 1 0
0 - 0 1 0
0 0 0 1 0
0 - 0 0 0
0 - 0 0 0
0 1 0 0 0
0 - 0 1 0
0 - 0 1 0
0 - 0 1 0
0 0 0 0 0
0 - 0 0 0
0 0 0 1 0
0 - 0 0 0
0 0 0 0 0
0 - 1 0 0
0 - 1 0 0
0 - 0 0 0
0 - 0 0 0
0 1 0 0 1
0 0 0 0 0
0 - 0 1 0
0 - 1 0 0
0 - 0 0 0
0 0 0 0 0
0 1 0 1 1
0 - 0 0 1
0 0 0 0 1
0 - 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 1 0
0 0 0 1 1
0 - 1 0 0
0 0 0 0 0
0 0 0 0 0
0 1 0 1 0
0 - 0 1 0
0 - 0 0 0
0 0 0 1 0
0 0 0 0 0
0 0 0 0 0
0 - 0 0 0
0 0 0 0 0
0 0 0 1 0
0 0 1 0 0
0 0 0 0 1
0 0 0 0 0
0 0 0 0 1
0 0 0 0 1
0 - 0 1 0

No.16093 Re: 多重ロジスティック回帰分析との相性の良くないデータとは?  【青木繁伸】 2011/12/27(Tue) 07:28

「相性が良くない」とは,ずいぶんと文学的な表現ですね。
complete or quasi-complete separation でしょう。

ところで,このデータを R で分析するとちゃんと分析できましたけど?
> colnames(x) <- c("disease", paste("item", 1:4, sep=""))
> ans <- glm(disease~., data=x, family=binomial) # 項目1 の不明を不明として扱う場合
> ans

Call: glm(formula = disease ~ ., family = binomial, data = x)

Coefficients:
(Intercept) item10 item11
-24.9888 -0.1077 20.2077
item2 item3 item4
22.5097 3.4420 2.4131

Degrees of Freedom: 69 Total (i.e. Null); 64 Residual
Null Deviance: 67.19
Residual Deviance: 13.47 AIC: 25.47
> x$item1 <- as.integer(x$item1)
> x$item1 <- x$item1-2
> x$item1 <- ifelse(x$item1 == -1, 0, 1)
> ans <- glm(disease~., data=x, family=binomial) # 項目1 の不明を 0 として扱う場合
> ans

Call: glm(formula = disease ~ ., family = binomial, data = x)

Coefficients:
(Intercept) item1 item2
-7.540 1.529 4.947
item3 item4
3.267 2.318

Degrees of Freedom: 69 Total (i.e. Null); 65 Residual
Null Deviance: 67.19
Residual Deviance: 22.26 AIC: 32.26

No.16095 Re: 多重ロジスティック回帰分析との相性の良くないデータとは?  【mizumoto】 2011/12/27(Tue) 09:57

青木先生

早速お返事をいただきありがとうございました。
この掲示板を早くみつけていれば,無駄な統計ソフトを購入せずにすんだのにと後悔しております。

御忙しいところ御教示いただきありがとうございました。

No.16096 Re: 多重ロジスティック回帰分析との相性の良くないデータとは?  【TY】 2011/12/27(Tue) 12:26

ご参考までですが,SASでも分析結果は出力されます (欠測がある個体は解析から除かれます)。ただし,推測はうまくいきません。最尤推定の計算を打ち切ったところで出力するので,結果は以下のようになりま す。変数1,2の標準誤差が異常に大きく,オッズ比もめちゃめちゃです。Rの仕様は確認していませんが,警告なしに計算をやめたところでの推定結果を出し ている可能性もあります。
                         モデル収束状態

データ点の擬似完全分離が検出されました。

WARNING: 最尤推定量は存在していない可能性があります。
WARNING: LOGISTIC プロシジャは上記の警告にもかかわらず継続します。 最尤反復に基づいて結果が表示されます。
モデルの当てはめの妥当性は疑わしいです。
(略)
最大尤度推定値の分析

標準 Wald
パラメータ 自由度 推定値 誤差 カイ 2 乗 Pr > ChiSq

Intercept 1 -16.8550 231.5 0.0053 0.9420
var1 1 13.4736 231.5 0.0034 0.9536
var2 1 15.0606 231.5 0.0042 0.9481
var3 1 2.2146 1.7513 1.5992 0.2060
var4 1 1.8255 1.6774 1.1844 0.2765

オッズ比推定値

95% Wald
変動因 点推定値 信頼限界

var1 >999.999 <0.001 >999.999
var2 >999.999 <0.001 >999.999
var3 9.158 0.296 283.452
var4 6.206 0.232 166.183

No.16097 Re: 多重ロジスティック回帰分析との相性の良くないデータとは?  【青木繁伸】 2011/12/27(Tue) 13:22

> ご参考までですが,SASでも分析結果は出力されます (欠測がある個体は解析から除かれます)。ただし,推測はうまくいきません。最尤推定の計算を打ち切ったところで出力するので,結果は以下のようになりま す。変数1,2の標準誤差が異常に大きく,オッズ比もめちゃめちゃです。Rの仕様は確認していませんが,警告なしに計算をやめたところでの推定結果を出し ている可能性もあります。

普通は,欠損値は除いて分析されるべきもの。- を NA にして,R で再分析し,summary で詳細な結果を表示してみると以下のようになる。確かに,まともな推定値ではない(Std. Error を見れば分かる)。

エラーメッセージを表示しないからといって,結果が正しいとは限りませんね。結果を吟味するのは,ユーザの責任。
> ans <- glm(disease~., data=x, family=binomial) 
> ans

Call: glm(formula = disease ~ ., family = binomial, data = x)

Coefficients:
(Intercept) item1 item2 item3 item4
-23.751 20.370 21.957 2.215 1.825

Degrees of Freedom: 45 Total (i.e. Null); 41 Residual
(24 observations deleted due to missingness)
Null Deviance: 50.61
Residual Deviance: 11.68 AIC: 21.68
> summary(ans)

Call:
glm(formula = disease ~ ., family = binomial, data = x)

Deviance Residuals:
Min 1Q Median 3Q Max
-1.46685 -0.00003 -0.00001 -0.00001 1.69575

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -23.751 4414.590 -0.005 0.996
item1 20.370 4414.589 0.005 0.996
item2 21.957 4414.590 0.005 0.996
item3 2.215 1.751 1.265 0.206
item4 1.825 1.677 1.088 0.276

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 50.607 on 45 degrees of freedom
Residual deviance: 11.684 on 41 degrees of freedom
(24 observations deleted due to missingness)
AIC: 21.684

Number of Fisher Scoring iterations: 20

No.16098 Re: 多重ロジスティック回帰分析との相性の良くないデータとは?  【青木繁伸】 2011/12/27(Tue) 13:44

まるっきり駄目な結果でもないのかも。


No.16107 Re: 多重ロジスティック回帰分析との相性の良くないデータとは?  【mizumoto】 2011/12/28(Wed) 00:56

青木先生,TY様。データの分析をしていただきありがとうございました。

今回のデータについて, 「項目1〜4に関しては,それぞれ疾患群で有意に陽性率が高かった。しかし欠損値が多いためか,多重ロジスティック回帰分析は実施できなかった(分析では リスク因子を決定できなかった)」という考察は,統計学ご専門の先生方にとってはおかしな記述に見えますでしょうか。

ご意見をいただけると幸いです。よろしくお願い申し上げます。

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る