No.16461 複数回答があった場合の2×k分割表の検定について  【迷える子羊】 2012/02/19(Sun) 13:55

いつもお世話になっております。
複数回答があった場合の検定で困っております。
どうか,よろしくお願いいたします。

データは,以下のようなものです。
「好きな果物を教えて下さい」という質問(複数回答可)に,男性40名,女性50名が回答し,結果は以下のようになりました。
   みかん いちご りんご 合計
男性 15   10   35   60
女性 20   30   20   70

  ここで,2群の分布に差があるかどうか見たいのですが,分布の差の検定(独立性の検定)はできませんよね(No.16077)。No.16077では,こ の場合,2群の比率の差の検定を行えばよいと教えていただいたのですが,これは,Exact test Test of goodness of fitness で,理論比の指定で明示指定を選び,理論比を男女の回答者数の比(4:5)にして,例えばりんごの観測値35と20を入れればよい(『二 群の差の検定』では,フィッシャーの正確確率検定を行ってもよいとあったのでそう考えました)のでしょうか。

No.16463 Re: 複数回答があった場合の2×k分割表の検定について  【青木繁伸】 2012/02/19(Sun) 18:31

集計結果を表にするときにちゃんとしないからおかしくなる。
ミカンと答えたのが男40人中15人,女50人中20人ということで
   好き 好きではない 合計
男   15 25     40
女 20 30 50
合計 35 55 90
男と女でミカンの好き嫌いに違いがあるかという検定になる。
同じく,イチゴ,リンゴについて検定するということで,多重比較になるのでP値を調整する。
上のような表の検定は,独立性の検定(比率の差の検定)が漸近近似検定で,その正確番がフィッシャーの正確確率検定。

No.16465 Re: 複数回答があった場合の2×k分割表の検定について  【迷える子羊】 2012/02/19(Sun) 19:44

お返事ありがとうございます。お待ちしておりました。

> ミカンと答えたのが男40人中15人,女50人中20人ということで
>   好き 好きではない 合計
> 男  15  25     40
> 女  20  30     50
> 合計 35  55     90
> 男と女でミカンの好き嫌いに違いがあるかという検定になる。

> 上のような表の検定は,独立性の検定(比率の差の検定)が漸近近似検定で,その正確番がフィッシャーの正確確率検定。

以上のことは,とてもよく分かりました。
正確確率検定をすると,Fisher の方法により計算した正確なP値は 0.0569973 となりました。
いちごは,Fisher の方法により計算した正確なP値は 0.0012805となり,
リンゴは,Fisher の方法により計算した正確なP値は 3.6234e-06となりました。

ここまでは分かったのですが,
> 同じく,イチゴ,リンゴについて検定するということで,多重比較になるのでP値を調整する。
多重比較は何をどうしたらいいのかが分かりません。そもそも上の正確確率検定は間違いなのでしょうか。

No.16466 Re: 複数回答があった場合の2×k分割表の検定について  【青木繁伸】 2012/02/19(Sun) 20:37

> Fisher の方法により計算した正確なP値は 0.0569973 となりました

どのようなプログラムを使って,どのようにしたらそんな数値になりましたか?
> fisher.test(matrix(c(15, 25, 20, 30),2))

Fisher's Exact Test for Count Data

data: matrix(c(15, 25, 20, 30), 2)
p-value = 0.8312
以下略
では?
後の2つは合っているようです。

> 多重比較は何をどうしたらいいのかが分かりません。

多重比較(ボンフェローニ法なり)の説明を読む必要がありますね。知識なしには検定できないでしょう。

最 も単純なボンフェローニ法では,全部でk個の検定を繰り返すときには,個々の検定は有意水準α/kで判定する(同じことだが,得られたP値のk倍とαを比 較する)。今の場合だと,検定は3回繰り返すのだから,最終的な有意水準を0.05として検定したいのなら,P値が0.05/3より小さいときに有意とす る。

No.16467 Re: 複数回答があった場合の2×k分割表の検定について  【迷える子羊】 2012/02/19(Sun) 21:58

ありがとうございます。

>> Fisher の方法により計算した正確なP値は 0.0569973 となりました
>どのようなプログラムを使って,どのようにしたらそんな数値になりましたか?

すみませんでした。何か違う数値を入れたのに気付かなかったようです。
やり直したら,Fisher の方法により計算した正確なP値は 0.831245 になりました。
そもそも,あのみかんの回答が有意傾向になるはずがありませんね。そこで気付くべきでした。

多重比較についてです。

> 最も単純なボンフェローニ法では,全部でk個の検定を繰り返すときには,個々の検定は有意水準α/kで判定する(同じことだが,得られたP値のk倍とαを 比較する)。今の場合だと,検定は3回繰り返すのだから,最終的な有意水準を0.05として検定したいのなら,P値が0.05/3より小さいときに有意と する。

ありがとうございました。ボンフェローニ法での有意水準の決め方はよく分かりました。

先生のおっしゃることは,みかんといちごとりんごについて正確確率検定をしたら,それは多重比較になっているということですよね。そこがよく分からないのです。私には3つは別々の検定で,まだ,何も比較していないように思えるのです。

そ して,これが複数回答なしの場合なら,2×3で検定をして,全体で有意ならどの組合せが有意なのかをみるために,みかんといちご,いちごとりんご,りんご とみかんの3種類の組合せの検定をするので多重比較ということになり,ボンフェローニ法なら有意水準を3で割るという話になってくると私は理解しているの ですが。

No.16468 Re: 複数回答があった場合の2×k分割表の検定について  【青木繁伸】 2012/02/19(Sun) 22:48

結論を述べるときに,「ミカンは男女差があるとはいえなかった,イチゴとリンゴには男女差があった」となるでしょ。それが多重比較の結論です。

> 複数回答なしの場合なら,2×3で検定をして,全体で有意ならどの組合せが有意なのかをみるために,みかんといちご,いちごとりんご,りんごとみかんの3種類の組合せの検定をするので多重比較ということになり

それも多重比較ですが。単に「比較」ということではなく,「検定の多重性」という所がキモなんです。

No.16470 Re: 複数回答があった場合の2×k分割表の検定について  【迷える子羊】 2012/02/19(Sun) 23:15

ありがとうございます。
「検定の多重性」の問題なのですね。

>「ミカンは男女差があるとはいえなかった,イチゴとリンゴには男女差があった」となるでしょ。それが多重比較の結論です。

これは,「男女で好きな果物には差があり,具体的にはイチゴとリンゴに差があった」ということだから,多重比較の結論だということなのですね。

No.16472 Re: 複数回答があった場合の2×k分割表の検定について  【迷える子羊】 2012/02/20(Mon) 00:31

ありがとうございました。
上記の理解でよければ,今のデータの検定の多重性の問題は,分かったと思います。

もう一つ教えていただきたいことがあります。
実は,今まで教えていただいた果物のデータは,もう少し大きなデータの一部なのです。
データを全部示しますと,
「好きな食べ物を教えて下さい」という質問(複数回答可)に,男性40名,女性50名が回答し,結果は以下のようになりました。
   みかん いちご りんご   カレー  うどん  寿司  スパゲティー
男性 15   10   35      35    15    40   10     
女性 20   30   20      20     0    40   35

回答結果は,果物と食事に分けられるので,個々の果物や食事を合算して上位カテゴリーを作ると,以下のようになります。

   果物  食事
男性 60   100
女性 70    95

このデータについて,検定をしたいのですが,いくつかの点で困っております。

1 そもそも,このデータの検定ができるのか。
 ひっかかっているのは,果物や食事に一人で2票以上入れている人がいるのですが,そういうデータを検定することができるのかということです。

2 先程の比率の差の検定の考え方を適用するとすれば,おかしいことが起こる。
 例えば,果物でいえば,下のようになってしまいます。
   果物好き 果物好きでない
男性  60    -20
女性  70    -20
 負の数の度数をどう考えればいいのかということです。

どう考えればいいのか,お教えいただけないでしょうか。

追伸 私は社会人学生でして,明日以降,平日は教えていただいたことへの返事が,夜もしくは,次の日になるかもしれません。どうか,お許し下さい。

No.16475 Re: 複数回答があった場合の2×k分割表の検定について  【青木繁伸】 2012/02/20(Mon) 07:34

> 回答結果は,果物と食事に分けられるので,個々の果物や食事を合算して上位カテゴリーを作ると,以下のようになります。

そもそも,元のデータは,好き嫌いデータとは別のものであるとは思っておりますが,たとえ話は問題の理解には何の役にも立たないばかりでなく,正しい議論の展開に対しては害悪を及ぼすものです。この掲示版でも,このような不毛な議論が何度も繰り返されてきました。

そ もそも,それぞれの項目を選択しなかったかどうかを0/1データと見て,それらを合算する事に意味があるものならば,(個人ごとに)合算して平均値(代表 値)の差の検定をすればよいでしょう。(たとえば,関連する項目(臨床所見や,心理テストの項目など)の一致・不一致のデータを分析したいのなら,合算す べきものは尺度得点などなんでしょう)。

> 負の数の度数をどう考えればいいのか

負の数はそもそも度数ではないということに気づけば,この検定(合算数値の検定)は度数の検定ではないことが分かるでしょう。

No.16479 Re: 複数回答があった場合の2×k分割表の検定について  【迷える子羊】 2012/02/20(Mon) 21:51

ありがとうございます。
たとえ話の方が話が分かりやすいと考えたのですが,そうではなかったようで申し訳ありませんでした。

このデータは,専門性の異なる2職種間の連携の結果として望む成果は何ですかという質問に対する自由記述をそれぞれの職種ごとにカテゴリー化し,そのカテゴリーに属する記述数をまとめた結果得られたものです。

職種Aからは40人が,職種Bからは50人が回答し,得られたカテゴリーは一致し,その記述数は以下のようになりました。

   問題理解の促進 効果的な対応 問題の早期発見   問題の予防 問題の解決 支援者の安定
職種A  15      10      35         30     40     10     
職種B  20      30      20          5     30     15

前3者と後3者がそれぞれ近い内容を言っていると考え,それをまとめることにしました。前3者を,「問題対応の機能化」と,後3者を「関係者のQOLの向上」とします。すると,以下のようにまとまります。

     問題対応の機能化     関係者のQOLの向上
職種A    60             80
職種B    70             50

このとき,職種Aと職種Bでは望む成果に差があるように思われます。
そこで,その差を明らかにするために検定を行いたいというわけです。
この場合,どのような検定が可能か,それとも不可能かご教示をお願いできると助かります。
よろしくお願いいたします。

No.16480 Re: 複数回答があった場合の2×k分割表の検定について  【青木繁伸】 2012/02/20(Mon) 21:59

度数の検定ではない。
先のコメントでも述べたように,各人ごとに,前三問への回答の合計数(問題対応の機能化を測定),後三問への回答の合計数(関係者のQOLの向上を測定)を求める。
各人ごと,それぞれ0〜3の数値が2つづつ得られる。
職種A,Bの2群で,二種の数値の平均値(代表値)に差があるかどうかの検定。
つまり,独立二標本の平均値の差の検定(いわゆるt検定)。
ノンパラメトリック検定ではマン・ホイットニーのU検定。

なお,

> 前3者と後3者がそれぞれ近い内容を言っていると考え,それをまとめることにしました。前3者を,「問題対応の機能化」と,後3者を「関係者のQOLの向上」とします。

の客観性を保証する必要はあろう。

No.16481 Re: 複数回答があった場合の2×k分割表の検定について  【迷える子羊】 2012/02/20(Mon) 23:01

何度もありがとうございます。

>先のコメントでも述べたように,各人ごとに,前三問への回答の合計数(問題対応の機能化を測定),>後三問への回答の合計数(関係者のQOLの向上を測定)を求める。
>各人ごと,それぞれ0〜3の数値が2つづつ得られる。
>職種A,Bの2群で,二種の数値の平均値(代表値)に差があるかどうかの検定。
よく分かりました。
ということは,前3問や後3問の比較には比率の差の検定を,それをまとめた前3問対後3問の比較には独立二標本の平均値の差の検定を用いると良いということですね。

> 前3者と後3者がそれぞれ近い内容を言っていると考え,それをまとめることにしました。前3者を,「問題対応の機能化」と,後3者を「関係者のQOLの向上」とします。
の客観性を保証する必要はあろう。

この問題については,はじめのカテゴリー化についても客観性を保障する必要があるので,それと合わせて客観性が保障できるようにします。

長い間,ありがとうございました。
上記の方針で分析をしてみます。
いつも本当にありがとうございます。

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る