No.21411 10歳毎に区切った年代とアンケート回答結果の関係に有意な傾向があるかどうかを分析したい  【Natsumi】 2014/10/26(Sun) 04:44

20歳代から70歳代まで10歳毎に回答者属性を分類して,Yes or Noの選択式アンケートを行ったところ,質問に対して「はい」という回答が高い年代程多く見受けられました。逆にいうと「いいえ」が若い年代に多かったということです。

この傾向が統計学的に有意なものであるか否かを検討したいのですが,どういう手法がいいのか,以下2点で迷っています。

1)そもそも回答者数が年代によって異なるので,回答者数のうち「はい」と答えた者の割合,つまりパーセンテージを従属変数として使いたいと考えたのですが,このようにパーセントに変換してしまって,それを統計分析に使うことが良いのかどうか。

2)どういう分析手法が適当か。各年代間の多重比較をしたい訳ではなく,全体の傾向(高齢ほどYesが多い)があるかないかだけを確認したいので,いわゆる群間検定のような手法はちょっと違うような感触を持っています。しかし,独立変数に年齢(各年代の平均値),従属変数に「はい」と回答した者の割合等を置いて,単純に2変数間で線形回帰をするような手法も,それで果たして良いのか確信が持てず,困っています。

過去の掲示板質疑で年齢や年代などをキーワードに検索もしたのですが,同様の質疑が見つけられなかったので,今回お伺いする次第です。
宜しくお願いします。

No.21412 Re: 10歳毎に区切った年代とアンケート回答結果の関係に有意な傾向があるかどうかを分析したい  【青木繁伸】 2014/10/26(Sun) 08:14

「パーセンテージを従属変数として使いたい」というのは,サンプルサイズを無視することになるので,完全に間違いです。同じく,「従属変数に「はい」と回答した者の割合」も間違いです。

年齢も,「20歳代から70歳代まで10歳毎に回答者属性を分類」というのは,データのもつ情報を捨てることになるので,不適切です。

個人ごとのデータを用いて,従属変数を Yes/No,独立変数を年齢(実際の年齢)として,ロジスティック回帰分析をすればよいでしょう(年齢の回帰係数の有意性を見る)。

No.21413 Re: 10歳毎に区切った年代とアンケート回答結果の関係に有意な傾向があるかどうかを分析したい  【Natsumi】 2014/10/26(Sun) 12:49

迅速な御返信をありがとうございます。

ただ,実は調査データで,実年齢は判明しておらず,あくまで「○歳代」という年代しか判明していないのです。実年齢を記入して貰うアンケートにすれば良かったという後悔もあるのですが,そうすると(とくに女性は)年齢を記入することに抵抗もあろうかということで,あくまで年代を選択して貰う方式にしました。

実際,それでも年齢の設問は未記入の回答が散見されました。

この制約がある中では,やはり例えば20歳代であれば,その中央値,24.5歳と見なして,回帰分析にかけるしかなさそうですね。もし他に何か良い案があれば,追加でご教示頂ければ幸いです。

No.21414 Re: 10歳毎に区切った年代とアンケート回答結果の関係に有意な傾向があるかどうかを分析したい  【後医は名医】 2014/10/26(Sun) 19:47

Cochran-Armitage検定ではダメなのでしょうか?
>http://aoki2.si.gunma-u.ac.jp/lecture/Hiritu/Armitage.html

No.21415 Re: 10歳毎に区切った年代とアンケート回答結果の関係に有意な傾向があるかどうかを分析したい  【青木繁伸】 2014/10/26(Sun) 19:51

> Cochran-Armitage検定ではダメなのでしょうか?

元のデータの持つ情報を有効に使うという観点からは,ロジスティック回帰分析の方が良さそうに思います。
実際のデータ(架空データ)で比較してみるとよいかな。

No.21416 Re: 10歳毎に区切った年代とアンケート回答結果の関係に有意な傾向があるかどうかを分析したい  【青木繁伸】 2014/10/26(Sun) 21:08

想像に反して,Cochran-Armitage 検定の方が敏感みたいな感じですか?
> n <- c(30, 35, 47, 21, 45)
> r <- c(2, 4, 14, 13, 39)
> x <- rep(1:5*10, n)
> y <- NULL
> for (i in seq_along(n)) {
+ y <- c(y, rep(0:1, c(n[i]-r[i], r[i])))
+ }
> d <- data.frame(x, y)
> ans <- glm(y ~ x, d, family=binomial)
> summary(ans)

Call:
glm(formula = y ~ x, family = binomial, data = d)

Deviance Residuals:
Min 1Q Median 3Q Max
-1.9490 -0.8847 -0.2814 0.5695 2.5490

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.44569 0.63388 -7.013 2.33e-12
x 0.12366 0.01771 6.983 2.89e-12

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 240.23 on 177 degrees of freedom
Residual deviance: 160.86 on 176 degrees of freedom
AIC: 164.86

Number of Fisher Scoring iterations: 5

> Cochran.Armitage(r, n)
カイ二乗値 自由度 P 値
トレンド 68.572732 1 1.222834e-16
直線からの乖離 4.014484 3 2.599043e-01
非一様性 72.587216 4 6.449422e-15
> prop.trend.test(r, n)

Chi-squared Test for Trend in Proportions

data: r out of n ,
using scores: 1 2 3 4 5
X-squared = 68.5727, df = 1, p-value < 2.2e-16

No.21431 Re: 10歳毎に区切った年代とアンケート回答結果の関係に有意な傾向があるかどうかを分析したい  【Natsumi】 2014/11/04(Tue) 11:51

後医は名医さま,青木先生,お二人とも追加の投稿をありがとうございました。
しばらくインターネットにアクセスできなかったため,御礼が遅くなり失礼しました。

● 「統計学関連なんでもあり」の過去ログ--- 047 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る