No.21702 ロジスティック回帰分析のイベント数とサンプルサイズが小さい場合の変数投入法  【還暦を過ぎたおじさん】 2015/06/15(Mon) 19:58

度々お世話になりまして厚く御礼申し上げます。
今回も初歩的な質問で恥ずかしいのですが,相談出来る方が周りにおらず,この場をお借りしたく存じます。ロジスティック回帰分析に関する質問をさせて頂きます。

ロジスティック回帰分析に必要なサンプルサイズは,「従属変数のイベント数 / 独立変数の数≧10」ということを,また単変量解析で独立変数を選択した後に多変量解析を行うのではなく,最初から多変量解析をしなくてはならないことを,この掲示板で勉強させて頂きました。

今回,以下の3点について,お教え賜りたくお願い申し上げます。

(1)イベント数とは,従属変数の「あり:1」「なし:0」のどちらを意味するのでしょうか。私は「あり」の方だと理解していました。しかし,以下のKatzの書籍のp82-83には「アウトカム保有者数もしくは非保有者数のうち少ない方が,モデルに用いる独立変数の少なくとも10倍なくてはならない」と記載されています。そして,「少ない方が目安となる理由は,発生しやすさと発生しにくさは数学的に同じことで,“発生しにくさ=1−発生しやすさ”という関係にあるからです」とあります。

医学的研究のための多変量解析 一般回帰モデルからマルチレベル解析まで,木原雅子 他 監訳,Katz MH 著,メディカル・サイエンス・インターナショナル社,東京,2010

(2)現在,解析しているデータがあります。サンプルサイズは240,従属変数(0:135,1:105)に対して独立変数が15(いずれも0,1データ)です。この場合,全ての独立変数(15変数)を投入(変数増加法:尤度比)して解析を行ったところ,有意な4つの変数が選択されました。解析ソフトはSPSSを用いています。

しかし,イベント数からみて独立変数の数が多いと考えました。そこで,やむを得ず単変量解析(Fisherの正確確率検定)の結果からP<0.25の独立変数のみ(10変数)を選択し,同様に投入して解析した結果,上記と同じ4つの変数が選択されました。これらの場合,オッズ比,オッズ比の95%信頼区間,モデルx2検定結果(P値),HosmerとLemeshowの検定結果(P値),判別的中率の値も全てが同値でした。

同様なことを強制投入法でも行ってみましたが,有意となった変数は両者(15変数の場合と10変数の場合)とも同じで,且つ上記と同じ4つの変数でした。当然のことながら,両者のオッズ比等の数値は異なっていましたし,変数増加法によるオッズ比等の数値とも異なっていました。

変数増加法は,独立変数の中から従属変数に最も強く関連している変数が順に選択されると理解しています。従って,「従属変数のイベント数 / 独立変数の数≧10」という条件は,強制投入法で解析した場合には変数投入時の条件であるが,変数増加法で解析した場合にはモデル完成時の条件と考えても宜しいのでしょうか。

なお,上述の書籍には,変数増加法は独立変数の数に対して「サンプルサイズが小さい研究に最適」である,との記述(p114-115)があります。

(3)本掲示板には,ステップワイズ法などの変数選択法は,最近は好まれていないとあります(過去ログ:2668)。同様な記載は上述のKatzの書籍(p117-118)にもあります。これらから考えれば,基本的には強制投入法を用いるべきだろうとの考えに至っています。しかし,この場合,イベント数に比べて独立変数の数が多い場合には,どのようにすれば宜しいのでしょうか。青木先生は「理論的に考えて(先行研究などもふまえて)必要な変数を選択すべき」と仰っています(過去ログ:07786)。しかし,初心者にはそれが困難ですので,機械的に単変量解析の結果(P<0.25など)から独立変数を選択して強制投入法で解析するという方法は魅力的です。

以上,長くなりましたが,何卒宜しくお教え賜りたくお願い申し上げます。

No.21703 Re: ロジスティック回帰分析のイベント数とサンプルサイズが小さい場合の変数投入法  【青木繁伸】 2015/06/15(Mon) 21:41

> (1)イベント数とは,従属変数の「あり:1」「なし:0」のどちらを意味するのでしょうか。私は「あり」の方だと理解していました。しかし,以下のKatzの書籍のp82-83には「アウトカム保有者数もしくは非保有者数のうち少ない方が,モデルに用いる独立変数の少なくとも10倍なくてはならない」と記載されています。そして,「少ない方が目安となる理由は,発生しやすさと発生しにくさは数学的に同じことで,“発生しにくさ=1−発生しやすさ”という関係にあるからです」とあります。

「目的とする事象」と解釈すれば何の疑いもないでしょう。
たとえば,「ある疾病に関与する要因は?」ということの逆は「ある疾病に無関係の要因は?」と言うことになるでしょうが,どちらがわかりやすいでしょうか?あきらかですね。

> 同様に投入して解析した結果,上記と同じ4つの変数が選択されました。これらの場合,オッズ比,オッズ比の95%信頼区間,モデルx2検定結果(P値),HosmerとLemeshowの検定結果(P値),判別的中率の値も全てが同値でした。

単変量解析の結果得られた結果に基づいて多変量解析を行うのは,明らかな誤りです。

> 同様なことを強制投入法でも行ってみましたが,有意となった変数は両者(15変数の場合と10変数の場合)とも同じで,且つ上記と同じ4つの変数でした。当然のことながら,両者のオッズ比等の数値は異なっていましたし,変数増加法によるオッズ比等の数値とも異なっていました。

欠損値がない場合は同じ結果になるはずです。欠損値がある場合には,実際に分析に使用されるデータセットが異なる場合があるので,当然ながら結果は異なる事になるでしょう。最終的に得られた結果で使用された変数を用いて(変数選択なしで)行った分析結果は同じになるでしょう。同じにならなければ,あなたの分析の指定が間違えているのです。

> 変数増加法は,独立変数の中から従属変数に最も強く関連している変数が順に選択されると理解しています。従って,「従属変数のイベント数 / 独立変数の数≧10」という条件は,強制投入法で解析した場合には変数投入時の条件であるが,変数増加法で解析した場合にはモデル完成時の条件と考えても宜しいのでしょう

与えられたデータに基づいて,数学的に選ばれたモデルなので,実質科学的に最適なモデルであることは「保証されていません」。

> ステップワイズ法などの変数選択法は,最近は好まれていないとあります(過去ログ:2668)。同様な記載は上述のKatzの書籍(p117-118)にもあります。これらから考えれば,基本的には強制投入法を用いるべきだろうとの考えに至っています。しかし,この場合,イベント数に比べて独立変数の数が多い場合には,どのようにすれば宜しいのでしょうか。青木先生は「理論的に考えて(先行研究などもふまえて)必要な変数を選択すべき」と仰っています(過去ログ:07786)。しかし,初心者にはそれが困難ですので,機械的に単変量解析の結果(P<0.25など)から独立変数を選択して強制投入法で解析するという方法は魅力的です。

研究者の考え方に依存するものであって,それが不適切であるかどうかは,読者の判断によります。
つまり,研究者には,「客観的に正しい判断が要求される」ということであり,それを回避することはできません。
「初心者だから」ということで許されることはありません。それができないならば,論文を投稿する資格はありません。

No.21705 Re: ロジスティック回帰分析のイベント数とサンプルサイズが小さい場合の変数投入法  【還暦を過ぎたおじさん】 2015/06/16(Tue) 17:16

青木先生,明快にご回答賜りまして有り難うございます。
数々の疑問の点や,理解できていなかった点が明らかとなり,これで現在進行中の解析を前に進めることができます。重ねて御礼申し上げます。

なお,以下は,この場をお借りして,私自身の覚え書きとして記載させて頂くことをお許し下さい。

(1)につきまして:
私の理解が誤っていたことを知りました。

(2)につきまして:
> 最終的に得られた結果で使用された変数を用いて(変数選択なしで)行った分析結果は同じになるでしょう。

ご指摘に従って,変数増加法で得られた4つの変数を用いて,強制投入法で分析してみました。その結果,先生の仰いますように,得られたオッズ比等は変数増加法における場合と全く同値でした。なお,欠損値はございません。

> 実質科学的に最適なモデルであることは「保証されていません」。
変数増加法の場合でも,変数投入時のサンプルサイズは「従属変数のイベント数 / 独立変数の数≧10」という条件を満たしている必要があると理解致しました。

(3)につきまして:
サンプルサイズに比して独立変数の数が多いことが分かったとき,本来ならばサンプルサイズを大きくすれば良いのですが,分析段階では独立変数の数を減らすしか方法がありません。この点については,この掲示板でも多く取り上げられており,青木先生は今回のように,常に「>単変量解析の結果得られた結果に基づいて多変量解析を行うのは,明らかな誤りです。」と,ご指摘なさっています。

今回,重ねて頂戴しました先生のご指摘は,統計の初心者であろうがなかろうが,論文を投稿する限りは正しい方法で解析した結果でなくてはならないと理解致しました。この点に関しましては,過去ログにある先生の「理論的に考えて(先行研究などもふまえて)必要な変数を選択すべき」ということを常に考えながら解析を行いたく思います。

● 「統計学関連なんでもあり」の過去ログ--- 047 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る