No.17249 不均等データの取り扱い  【Yoshi】 2012/07/30(Mon) 18:10

いつもお世話になっております。

過去ログをみても,不均等データについての言及が無かったため,質問させていただきます。以下,質問です。

マルチレベル分析(HLM)などを実施する前に,級内相関を調べることが重要だと思いますが,地域ごとに持っているサンプルの数が大きく異なり(7-40),「不均等データのため分析できません」という表示が出ます(STATA)。

このような場合,どういった対処方法があるのでしょうか。

申し訳ありませんが,ご教授していただけると幸いです。

どうぞよろしくお願いいたします。

No.17250 Re: 不均等データの取り扱い  【青木繁伸】 2012/07/30(Mon) 19:09

何と何の級内相関を取ろうとしているのですか?
具体的でなくてよいので,数値例だけでよいですが。

No.17254 Re: 不均等データの取り扱い  【Yoshi】 2012/08/01(Wed) 22:49

青木先生

お返事ありがとうございます。

Outcomeは,0-4点の順序変数(レベル1)で,
地域ごと(64地域;レベル2)にどのくらいデータが散らばっているかを調べたいと考えています。
ただ地域ごとにサンプル数が異なり,7人から40人程度とばらつきがあり困っています。

こんな感じです。
Communitynumber(1-64) performance(0-4)
1 4
1 2
1 3
1 3
snip
1 2
1 3
1 2
... ....
64 2
64 3
snip
64 2
64 3

対策について,ご教授していただけると幸いです。
どうぞよろしくお願いいたします。

No.17256 Re: 不均等データの取り扱い  【青木繁伸】 2012/08/02(Thu) 00:20

こんなデータでは,級内相関なんかとれないのでは?
そもそも,級内相関は対応のあるデータでの相関なんだから,たとえば
   1  2   3   4  5  6   7  8   9 10 11 12
x 71 79 105 115 76 83 114 57 114 94 75 76
y 71 82 99 114 70 82 113 44 113 91 83 72
というようなデータで,x と y の級内相関=0.9656288 というものなんだから,
対応がない(対応がないからデータ数も異なる)データの級内相関って??
私は,聞いたことも見たこともないです。

No.17262 Re: 不均等データの取り扱い  【Yoshi】 2012/08/03(Fri) 15:36

青木先生

お返事ありがとうございます。
根本的に,僕のしたいこと自体が間違っているようですね。申し訳ありません。

ちなみに,今見ている文献(筒井,不破,2008)には,以下のような記述がありました。

--------------------------------------------------------------------------
単純なマルチレベル・モデルは,以下のようなモデルである。
Y = β0 + r
β0 = γ00 + u0

これはY を,説明変数を投入しない場合のY の最も優れた推計量である平均値と,それで
は吸収しきれない部分(誤差)で説明したモデルである。この時点で誤差がレベル1 のr とレベル2 のu0 に分解されているのがわかる。
それぞれの分散をσ2,τ2 とすれば,級内相関係数(ICC)を次のように求めることができる。
ICC = τ2 /(τ2 + σ2)

級内相関とはつまり,すべての誤差分散(τ2+σ2)に占めるグループ間分散(τ2)の割合である。
------------------------------------------------------------------------------
とあったので,今回のPerformanceの指標の分散を,
グループ内分散とグループ間分散に分けて,グループ間分散が占める割合を求めれば良いのではないかと思った次第です。

Excelで,全体平均,グループ平均,グループ間分散,グループ内分散を求めることはできると思うのですが,なぜかSTATAだと,不均等データなため,分析できませんと出てしまいました。

同じようなデータで,グループごとのサンプルの数が(20−35)のものは,問題なく計算できたので,なぜ不均等データだと分析できないのか,どうすれば分析できるのかが分かりませんでした。

不均等データに対する対策など,ご教授いただけると幸いです。

まだまだ統計初心者で,どのように説明すればよいのか分からず,言葉足らずで本当に申し訳ありません。

今後ともどうぞよろしくお願いいたします。

No.17263 Re: 不均等データの取り扱い  【青木繁伸】 2012/08/03(Fri) 18:44

信頼性指標としての級内相関係数
http://www.hs.hirosaki-u.ac.jp/~pteiki/research/stat/icc.pdf
の 説明の(3.16)式は,「級内相関係数(ICC)を次のように求めることができる。ICC = τ2 /(τ2 + σ2)」と同じですが,それはあなたのいう「グループ内分散とグループ間分散に分けて,グループ間分散が占める割合を求めれば良いのではないか」ではない でしょう。あなたのいうグループ内分散,グループ間分散というのは,Communitynumber による 64 個のグループのperformanceの分散でしょう?そのような場合の「グループ間分散 ÷ (グループ間分散+グループ内分散)」は,級内相関係数ではないです。

以下グループ内分散,グループ間分散を,群内分散,群間分散と呼びます。
確 かめるのは簡単です。No. 17256 に挙げたデータを,本当は対応のあるデータだけど対応のない2群のデータとみなして,Excel ででもよいので,群間分散,群内分散を求め,群間分散÷(群間分散+群内分散)を計算してみて下さい。答えは0.9656288になりますか?ならないで しょう。

ではどうして,「同じようなデータで,グループごとのサンプルの数が(20−35)のものは,問題なく計算できたの」でしょうか?
あなたがどのように指定して結果を得たのかわからないのですが,先ほどのデータを使って,どのような答がでてくるでしょうか?
0.9656288ではないのではないでしょうかね?

なお,「群間偏差平方和÷(群間偏差平方和+群内偏差平方和)」は相関比(決定係数)と呼ばれる統計数値です。

No.17270 Re: 不均等データの取り扱い  【Yoshi】 2012/08/05(Sun) 01:27

青木先生

毎回,大変詳しく,そして分かり易く,お教え頂きありがとうございます。

私の考えていたものは,級内相関係数とは全く別物なのですね。
勉強不足で,お恥ずかしい限りです。

お教え頂いた文献をしっかり読んでみようと思います。

今後ともどうぞよろしくお願いいたします。

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る