No.17214 2因子が関わる検定  【岩永】 2012/07/20(Fri) 15:00

臨床データの統計解析をしているのですが,統計学はまだ学び始めたばかりなので誤った解析法になってないか,ご指摘お願いできないでしょうか。
解析にはRを用いています。

小児急性中耳炎の発熱において,RSウイルス(RSV)と細菌(Bacteria)が及ぼす影響を調べたデータです。
1)RSウイルスの有り無しでの最高体温の比較
RSウイルス(+)群 最高体温平均値 38.5 ± 1.17 SD
RSウイルス(-)群 最高体温平均値 37.8 ± 1.22 SD
分布は見た目から正規分布とは言えないため,Wilcoxon順位和検定を行いました。
W = 3079, p-value = 7.955e-05 で有意差ありと判断
有意率は一般的な値を取って,5%としました。

2)細菌の有り無しでの最高体温の比較
細菌(+)群 最高体温平均値 38.2 ± 1.27 SD
細菌(-)群 最高体温平均値 37.8 ± 1.19 SD
これも正規分布ではないため,Wilcoxon順位和検定を行いました。
W = 5800, p-value = 0.02281
こちらも有意差ありと判断しました。

以上が,RSウイルスと細菌という2因子を別々に検定したのですが,混合感染や両因子ともなしという例もあり,2因子の組み合で比較をしました。
組み合わせで分布を見ると,RSウイルス(+)細菌(+)群の平均値は,RSウイルス(+)細菌(-)群より高くはなっていますが,Wilcoxon順位和検定では有意差が出ていません。
W = 828.5, p-value = 0.06688
しかし,RSウイルス(-)細菌(+)群とRSウイルス(-)細菌(-)群では,有意差が出ています。
W = 2361, p-value = 0.01728

RSウイルスも細菌も発熱に影響ありそうですが,どうも細菌が影響している発熱が単純に上乗せされている訳でなないようです。
2因子間の影響を見る必要がありそうで,問題はここからです。

3)2因子間の影響があるかどうかを見るにはどうすればいいのか,ということです。
単純に二元配置分散分析で調べればいいのでしょうか?
二元配置分散分析を行なってみますと,
              Df Sum Sq Mean Sq F value   Pr(>F)    
RSV 1 24.14 24.139 17.267 4.86e-05 ***
Bacteria 1 12.00 12.001 8.584 0.0038 **
RSV:Bacteria 1 0.12 0.116 0.083 0.7736
Residuals 195 272.61 1.398
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
「RSV:Bacteria」という交互作用の結果も出るのですが,このような要因分散分析では交互作用は出せないという記述を見たため,分散分析以外の方法を使うわなければいけないのかと思った次第です。

初歩的な質問でしょうが,よろしくお願いいたします。

No.17215 Re: 2因子が関わる検定  【岩永】 2012/07/20(Fri) 15:02

最高体温の分布を比較した図を載せておきます。
1)RSウイルスの有り無しでの最高体温の比較


No.17216 Re: 2因子が関わる検定  【岩永】 2012/07/20(Fri) 15:04

すみません,画像が大きくて同時にしたもの送れなかったので,分けて送ります。

2)細菌の有り無しでの最高体温の比較


No.17217 Re: 2因子が関わる検定  【岩永】 2012/07/20(Fri) 15:05

3)RSウイルスと細菌の組み合わせによる最高体温分布の比較


No.17220 Re: 2因子が関わる検定  【青木繁伸】 2012/07/20(Fri) 16:32

> このような要因分散分析では交互作用は出せないという記述を見たため

どこに書いてありましたか?
理由はなんて書いてありましたか?
「交互作用が有意な場合には主効果についての検定結果を受け入れるわけにはいかない」とか書いてあったのではないですか?
分散分析を行えないと判断したのは,あなたの誤解ですよ。
それに,交互作用は有意ではないのだから。
分布が正規分布でないのはいかんともしがたいが,二元配置分散分析するしかないかな。

No.17221 発熱の有無 (Re: 2因子が関わる検定)  【raraki】 2012/07/20(Fri) 17:21

ご質問の趣旨と違う内容でして混乱させると申し訳ないですが,ヒストグラムを見ると37℃未満(もしくは37.5℃未満)と以上との二群が混合しているようにみえます。これを群分けする必要はありませんか?

No.17222 Re: 2因子が関わる検定  【岩永】 2012/07/20(Fri) 17:59

青木様,ご教授有難うございます。

> このような要因分散分析では交互作用は出せないという記述を見たため
ネットで見かけた(?)事だったので,誤解だったと思います。

> 分布が正規分布でないのはいかんともしがたいが,二元配置分散分析するしかないかな。
正規分布でないことも気になっていたのですが,取り敢えず,二元配置分散分析を使っておきます。

rarakiさま
>ヒストグラムを見ると37℃未満(もしくは37.5℃未満)と以上との二群が混合しているようにみえます。これを群分けする必要はありませんか?

確かに二群に分かれているようなのですが,その分かれる理由が不明なんです。
もし,群分けをするなら「不明な要因があると仮定して,群分けをして検討した」
とすればいいのでしょうか?
今回中耳炎の発熱について2因子の影響を調べるのが目的なので,群分けをすることは全く考えていませんでした。

No.17226 Re: 2因子が関わる検定  【raraki】 2012/07/21(Sat) 10:51

必ずしも理由が明確でなくとも,分布から逆に複数のサブグループが混在していると推定して解析するのはありだと思 います。例数が十分かどうかわからないものの,カーブフィッティング用のツールを使ってGaussian curveをフィッティングさせて適合度をみてはいかがでしょうか?
#とくに明確な根拠はありませんが,もしかすると37.5℃あたりと39.5℃あたりを
#境に3つのサブグループに分かれ,それぞれ正規分布に当てはまったりするかも
#知れないな,とヒストグラムを見て思いました。たださすがにそれではnが少な
#すぎるかも知れませんね。

な お感染があれば熱発が多いのは当然かと思いますが(必ずしも熱発しない,また感染がなくても熱発しているケースもあるようですが),37.5℃あたりを境 としてその上下で感染以外にも何らかの因子が異なっているのではないか,というのは至極もっともな疑問だと思いますので,学会発表にしろ論文にしろ質問や 指摘を受ける可能性は高いと思います。

ちなみに細菌性の場合多分肺炎球菌かHibが多いのではないかと思いますが,菌の種類によって熱発の程度が異なったりはしないでしょうか? また年齢はどうですか? 当方耳鼻科領域は全くの素人ですので的外れな疑問かも知れませんが。

No.17227 Re: 2因子が関わる検定  【後医は名医】 2012/07/21(Sat) 12:48

正規分布でないことにあまりこだわらなければ,従属変数を最高体温,独立変数をRSV+/-,細菌+/-,年齢にした重回帰分析を行うのも一手ではないでしょうか。

No.17228 Re: 2因子が関わる検定  【岩永】 2012/07/21(Sat) 14:40

raraki様
> Gaussian curveをフィッティングさせて適合度をみてはいかがでしょうか?
Gaussian curveのフィッテイングについてはまだ勉強不足で知らなかったので,
調べてみます。

> 37.5℃あたりを境としてその上下で感染以外にも何らかの因子が異なっているのではないか,
この理由は全く判っていないと言いましたが,可能性がありそうな要因はあります。
ライノウイルスやエンテロウイルスといった鼻風邪や軽い気管支炎を起こすウイルスが,小児急性中耳炎か最も多く検出されていることが海外の文献で出ています。これらの風邪ウイルスならば,発熱がなくてもうなずけます。
ただ,まだ海外の文献でも中耳の病原性微生物と発熱について検討した文献はないようです。それで現時点では理由不明としています。

> ちなみに細菌性の場合多分肺炎球菌かHibが多いのではないかと思いますが,菌の種類によって熱発の程度が異なったりはしないでしょうか?

耳鼻科の細菌感染症専門(?)家の間では,炎症の強さについて
 肺炎球菌 > インフルエンザ桿菌
という認識となっているようす。そこで肺炎球菌とインフルエンザ桿菌の数もグラフ3に載せています。S.Pが肺炎球菌,H.Iがインフルエンザ桿菌です。
それを見ると,確かに無熱性の群にインフルエンザ桿菌は多く出てます。
ただ,RS(-)Bact(+)群でのインフルエンザ桿菌の分布を見ると,無熱性と有熱性の数が丁度半々くらいなので,やはり細菌とは別の要因が関係しているように思えてしまいます。

> また年齢はどうですか?
年齢の関与も考えておくべきでした。これから検討してみます。

後医は名医様
> 重回帰分析を行うのも一手ではないでしょうか。
年齢の関与も含めて分析できる手ですね。これも試してみます。

No.17229 Re: 2因子が関わる検定  【岩永】 2012/07/21(Sat) 16:35

試しに,重回帰分析してみました。
従属変数を最高体温,独立変数はRSV+/-,細菌(Bacteria)+/-,月齢(Months)としています。

Residuals:
  Min   1Q  Median 3Q   Max
-2.4150 -0.9769 0.1205 0.8207 2.5078

Coefficients:
     Estimate Std. Error   t   value Pr(>|t|)
(Intercept) 38.133756 0.196756 193.812  < 2e-16 ***
RSV     0.698041  0.166932 4.182  4.37e-05 ***
Bacteria  0.281825  0.166829  1.689  0.0928 .
Months   -0.015276  0.003153 -4.844  2.59e-06 ***
---
Signif. codes: 0 ‘***’0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.117 on 195 degrees of freedom
Multiple R-squared: 0.2119, Adjusted R-squared: 0.1997
F-statistic: 17.47 on 3 and 195 DF, p-value: 4.354e-10

RSVと月齢は相関有りそうですが,細菌は相関なしと見た方がいいようですね。

37.5℃未満の無熱群と37.5℃以上の有熱群に分けて,年齢分布を出してみました。
有熱性は1歳にピークがある分布で,小児急性中耳炎の普遍的な分布パターンと一緒です。
無熱性も1〜2歳にピークを持つような分布で,ピークが低いだけのような感じです。
有熱性と無熱性の要因としては年齢は関係あまり無さそうです。


No.17230 Re: 2因子が関わる検定  【raraki】 2012/07/22(Sun) 08:11

なるほど,これはこれで面白い結果だと思います。なおカーブフィッティングで探すと単一分布についてのフィッティ ングが主に引っかかってきます。混合分布の解析にはピークフィットまたはピーク分離で探すほうが良く,Rだとnlmeパッケージを使うことになるかと思い ますが,もっと良いパッケージがあるかも知れません。

ただとくに<37.5℃については0.1℃刻みくらいで分割する必要があるでしょうから,症例数から考えてちょっと難しいかも知れませんね。

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る