No.16840 ダミー変数?  【なむなむ】 2012/04/29(Sun) 05:04

いつも参考にさせて頂いております。

ダミー変数について色々調べたのですが分からないことがあり,ここで質問させて頂きます。

私の回帰モデルでは,個人iの魅力度y_iが以下のように表されます。

y_i = a + b*X_i + c*W_i + u_i

X_iは個人i自身の特徴,W_iは個人iの知人・友人の特徴の平均Z_iから作られる説明変数です。
質問はZ_iについてなのですが,個人iに知人・友人が全くいない場合,Z_iにどのような値を入れればよいのかが分かりません。知人・友人がいなければZ_iが計算できないからです。

W_i = D_i*Z_iとすることを考えました。
D_iは個人iに友人がいれば1をそうでなければ0を取るダミー変数だとします。
しかしこれだと個人iに友人がいない場合(D_i=0)と,友人はいてもその特徴がZ_i=0である場合を区別できません。観察上,前者は個人iの周囲の情報が「存在しない」状況であり後者は観察できない状況ですので,この両者が同じ値を取るのはおかしいと思うのです。

次に,W_i=Z_iとして,D_i=0のiに対しては,Z_i=観測されたZ_iの平均値を挿入することを考えました。こちらの方がまだ適切に思えますが,いかがでしょうか。

友人がいないiをドロップする以外の方法で,できるだけ作業上簡単な方法で解決したいと考えております。どなたかか良い方法をご存知のかた,ご教授頂ければ幸いです。

No.16842 Re: ダミー変数?  【波音】 2012/04/29(Sun) 14:10

思いつきのアイディアではありますが,例えば「友人有無(0:なし,1:あり)」という変数自体をモデルに投入すればよいのではないでしょうか。

つまりこういうモデル↓
y_i = a + b*X_i + c*W_i + u_i + Z_i + D_i

換言すればWというのはZとDの交互作用項を含んだモデル,ということです。これが

> 友人はいてもその特徴がZ_i=0である場合を区別できません。

という問題に対する解決法のように思えますが,,,, いかがでしょうか。

No.16846 Re: ダミー変数?  【青木繁伸】 2012/04/29(Sun) 21:29

波音さんのコメントに賛成ですが,さらに

> W_iは個人iの知人・友人の特徴の平均Z_iから作られる説明変数です。

とありますが,なぜ「知人・友人の特徴」から主観的?に構成された「特徴の平均Z_iから作られる説明変数」(???)が使われるのか理解できません。
それぞれの構成要素をそのまま独立変数に使えば良いのではないですか?
使えない,ということならその理由を。

No.16847 Re: ダミー変数?  【なむなむ】 2012/04/30(Mon) 02:25

波音様,青木先生,ご返信頂きありがとうございます。
大変勉強になります。

>波音様

y_i = a + b*X_i + c*Z_i*D_i + d*Z_i + e*D_i + u_i

説明の便宜上,F_i = c*Z_i*D_i + d*Z_i + e*D_iとおきます。

のような形にするということですね。
D_i=0の場合にはZ_iは計算できないのですが,
「D_i=0の場合にはZ_i=0とする」という理解で宜しいでしょうか。

この場合,

1. 個人iに友人がいない場合(D_i=0)はF_i=0となります。
2. 個人iに友人がいるがZ_i=0の場合は,確かにF_i=D_i=eとなります。

確かに,この方法が理にかなっていますね。
この方向で検討してみようと思います。

No.16848 Re: ダミー変数?  【なむなむ】 2012/04/30(Mon) 02:29

>青木先生

誤解を招くような書き方をしてしまい申し訳ございません。

W_iを「特徴の平均Z_iから作られる説明変数」と表現したのは,
この箇所にZ_i自体が入ったり,交互作用Z_i*D_iが入ったりと,
様々な特定化の可能性があったため(それが今回の質問内容です),
Z_iそれ自体だと書くわけにはいかなかったのです。

したがいまして,Z_iの中身自体をさらにいじるという意味ではございません。

No.16849 Re: ダミー変数?  【なむなむ】 2012/04/30(Mon) 02:38

もう一点,これに関連して質問させて下さい。
別の特定化では,X_i(i自身の特徴)の操作変数としてZ_iから構成された変数を
用いる必要があります。この場合もやはり波音様からのアドバイス通り,
(Z_i*D_i, D_i, Z_i)の3つをX_iの操作変数として用い,
一般化積率法(GMM)で推定するというのが最善でしょうか。

No.16850 Re: ダミー変数?  【波音】 2012/04/30(Mon) 11:28

> 「D_i=0の場合にはZ_i=0とする」という理解で宜しいでしょうか。

それでよいと思います。

後半の「関連して質問」については,少し難しいので考えて思いつきましたら別途,回答してみます。。。

No.16856 Re: ダミー変数?  【なむなむ】 2012/05/02(Wed) 05:55

自己レスですが,

>(Z_i*D_i, D_i, Z_i)の3つをX_iの操作変数として用い,
>一般化積率法(GMM)で推定するというのが最善でしょうか。

のうちZ_i*D_iは全く意味がありませんね…。
波音様の最初のレスと同じ発想で,(D_i, Z_i)のみを操作変数として用いるのが良いかと考えました。

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る