「統計学関連なんでもあり」の過去ログ--- 047

No.21868　2つの異なるモデルの使い方　　【波音】　2015/12/07(Mon) 17:15

アナロジーでの話題提示で恐縮ですが，「ある1つの事象を予測(説明)するために，異なる説明変数セットをもつ2つのモデルがあったとき」どちらのモデルを採用すべきかはよくある話題かと思います。

この問題に対してはAICのような基準で判定することもあれば，モデルの内容妥当性や実務上の観点で運用性の高い（？）方を採用するなど，色々な考え方があると思います。

今回，お聞きしたいのは

・いっそのこと2つのモデルによって得られた予測スコアを両方とも使ってしまう

というのはどうか，ということです。

【例】2つのロジットモデル

モデルその1：　がん発症有無 = タバコ吸う本数 + 年齢
モデルその2：　がん発症有無 = 喫煙ルーム滞在時間 + 性別

このようなモデルを用意して，例えばAさんのがんの発症率を与える（その1では0.50，その2では0.60が付与された）として，Aさんのがんの発症率はいったいどちらか？　という問題です。

※もちろん上記4変数を全て投入したモデルに対し，ステップワイズを実施したモデルが良いという回答もありますが，考えたいのは「2つのモデルが存在し，それがどちらも異なった観点で確からしいモデル」である場合です。

ややこしい話にしてしまうかもしれませんが，その1とその2ではモデルの持つ意味が異なり，その1は「ある個体の行動を主に表したもの」，その2は「ある個体がどのような環境に曝露されているかを表したもの」とします。このとき，おそらくその1のモデルでは「単にタバコを吸っている人だけががん発症のリスクがある」と判断されるでしょうし，その2では「逆にタバコを吸うことが無視される」かもしれません。

だとすると2つの異なる意味を持つモデルを有し，例えばスコアの高い方を採用する（上のAさんのれいでは0.60をがんの発症率とする）などの判断は妥当と考えられるでしょうか？

No.21869　Re: 2つの異なるモデルの使い方　　【韮澤】　2015/12/09(Wed) 09:23

　気になったのは，言われているモデルだと多重共線性を判断できない事です。例題だと，タバコを吸う本数と喫煙ルーム滞在時間には相関がありそうです。また，年齢・性別の両方を入れた方がよいモデルになる可能性も判別出来ません。つまり，モデル間の比較は出来ても最適なモデルであるかが判別できない事になると思います。
　4変数のモデルで始めると，ひとつを捨てて，例えば，タバコ吸う本数+年齢+性別のモデルに落ち着きそうに思いますが，その捨てる変数の判断で，言われている様なタバコを吸う事か，煙の環境下にいる事かも選ばれると思えます。

　ただ，この様な事は波音さんなら当然ご存じと思われ，なぜ，そう言う事を悩まれているのかに興味があります。そこを明らかにしていただくと，何かいいアイデアも出るのでは？
　例題だと，伴侶がタバコを吸うか，その本数などの説明変数も欲しくなりますが，ビッグデータから何を説明変数として拾ってくるかとの視点は難しそうで，言われている様な方法もひとつの手に思えます。

No.21870　Re: 2つの異なるモデルの使い方　　【青木繁伸】　2015/12/09(Wed) 20:50

> アナロジーでの話題提示で恐縮ですが

>> なぜ，そう言う事を悩まれているのかに興味があります。そこを明らかにしていただくと，

なのでねえ。

No.21871　Re: 2つの異なるモデルの使い方　　【波音】　2015/12/09(Wed) 23:13

コメントありがとうございます。
たしかに問題のモチベーションというか，経緯／背景をお伝えしたほうがよさそうでした。

（実務上の具体的な内容については言及できませんが）別の例で具体的な話を改めてさせてください。以下の話はあくまでも架空の話です。

目的：購買金額の高い顧客を予測して，適切な販売促進を行いたい

実態：店頭以外のプロモーション（例えばwebサイトのアクセス履歴，ダイレクトメール，コールセンターのコール履歴などあるとします）と店頭プロモーション（例えば商品陳列，店のデザイン，接客，品ぞろえ，価格などあるとします）があったとき，購買金額の高い顧客は【店頭以外】と【店頭】とで，どちらの要因によって説明されるかを知りたい。それにより顧客ごとに適したプロモーションを考えたい。

最終的なスコアの使い方：店頭以外プロモーションスコアと店頭プロモーションスコアを用いて，各顧客の購買ステータスを管理したい。

（例）
顧客A・・・店頭以外スコア＝0.65；店頭スコア＝0.30
この場合，店頭以外スコアは高いので，例えばwebでの訴求はうまく機能している。しかし店頭での接客が適切でなかったため，具体的な商品説明をするなどの改善が必要であろう。というような使い方をしたい。

用意するモデル：
モデルその1　Y(※1) = サイト閲覧時間 + 通話回数 + ...
モデルその2　Y(※1) = 接客評価 + 価格満足 + ...

※1　購買金額が10万を超えていたら「1」それ以外は「0」などといった2値データ。

ーーーーー

このように，実務運用上「2つの異なる意味を持つスコア」で顧客を管理したいというモチベーションがあるというような事情です（予測する事象は同じでも，説明する要因が異なります；要因を大きく区別して考えたいといったところでしょうか・・・）。

それで，上の例で挙げたような解釈は顧客一人一人をみればよいのですが，「で，結局，誰が買いやすいの？」という第一選定の指標として，例えば2つスコアを合計したものを総合スコアにする(あまりに安直な一例ですが・・・)という工夫がしたいことになります。

なお実際にやってみると，スコアを足し算した後に0-1の範囲に収まるように正規化したり，スコアの低い順に「順位」をつけたあと，その順位和をとってみたり(これも0-1正規化します)したうえでROCを算出すると，実際にステップワイズによって得た結果などよりも判別性能がよくなるのです・・・

極端な話，売り上げが確保できれば科学的根拠がなくても何でもいい，ということはあり得ますが，方法の妥当性を考えたいと思っているところです。なぜ足し算したり順位和をとることが判別性能をよくするのかよく分かりません。

他にも懸念（というか考えを巡らせている？？）はありますが，まずは要点だけお伝えするとこういうことになります。

No.21874　Re: 2つの異なるモデルの使い方　　【韮澤】　2015/12/10(Thu) 13:56

トラディショナルな統計学で解決出来る範囲ではなく，ベイズ統計か人口知能のテリトリの様に思います。

ニューラルネット系の機械学習を使えば，モデルの関数式を含めた最適化が出来ますし，複数のスコアに対して同時に処理出来ますので，ご希望の最適モデルを得るには，そういうアプローチがいい様に思います。
但し，結果的に得られた最適モデルがどういう数式になっているかが分からないので，接客評価がスコアにどう寄与しているか等の改善要因を探す様な事は直接出来ません。
故意に接客評価だけを変化させたデータを入れてみて，スコアがどう変わるかを見る事で
出来るとは思います。

確立された方法ではなく，今思いついたアイデアですが，機械学習で得たモデルに対して，タグチメソッドの実験計画法を使って，各説明変数のスコアへの寄与度は策定出来そうに思います。

No.21875　Re: 2つの異なるモデルの使い方　　【波音】　2015/12/12(Sat) 22:56

韮澤さんのコメントありがとうございます。

私もその後，いくつかの観点で考えを整理したりしてみましたが「これだ」という納得できるような解にはたどり着いていません・・・

あまりポジティブな考え方ではありませんが，何となく「使い方の工夫」の問題で科学的もしくは統計学的に気を付けるべきことを前提条件としてあげておき，実シーンに応じて使ってくようなことが必要そうな気がしてきています。

※使用上の注意をよく読んでお使いください，的な・・・

個人的には，
＞タグチメソッドの実験計画法を使って，各説明変数のスコアへの寄与度は策定出来そう
という案が具体化するのによいアイディアだと感じました。

勉強をしても，どうにもニューラルネットワークは（気持ち的に）敷居が高く感じます。やはり要因分析的な視点がないものは，抵抗があるのだと思いますが（汗）