No.17118 抽出するレコードの数について  【波音】 2012/06/22(Fri) 11:53

例えば個人属性(性別,年齢,居住地など)と購買データ(購買点数,購入金額など)のデータテーブルがあったとします。こ のデータが何千万レコード(1000万とか2000万)という大量データであった場合に,分析に使用するには大きすぎるのでランダムサンプリングでnレ コード分だけ抽出して使いたいと思っています。

例えばクラスター分析をやろうとしています。

このとき,何レコード抽出すれば「妥当か」という問題には答えられるでしょうか?
(奇妙な質問で申し訳ありません。。。)

一般的な標本調査理論では標本値と母集団の値(母数:例えば身長の平均を推定したいなら,身長の母平均)の誤差を何%まで許容するかという考え方で適切な標本サイズを決めます。

し かし今の私の問題においては,特に何かを推定したいという目的があるわけではなく,例えば「クラスター分析をしてみたいけど,どのくらいのデータがあれば いいのかな」というレベルの話です。換言すると標本値と母数という概念がないので,一般的な標本調査理論では解決できないような気がしています。

10万でもいいかもしれないし,5万でもいいかもしれないわけです。
このような問題はどういう着眼点をもって考えればよいでしょうか?

No.17121 Re: 抽出するレコードの数について  【青木繁伸】 2012/06/22(Fri) 21:47

クラスター分析の場合は,タイプの異なるサンプルはサンプルサイズは少数でもクラスターとしてとらえられるのではないでしょうか。主要なタイプは,サンプルサイズが小さくても把握されると思います。

要は,そのようなまれなタイプをどこまで捕らえる必要があるか,まれなタイプがある程度の数(そのようなタイプが確実にa%程度はあるというような数)を含むような標本のサイズはどれくらいかを見積もればよいのではないかと思いますけど。

No.17135 Re: 抽出するレコードの数について  【波音】 2012/07/01(Sun) 17:39

回答ありがとうございます。
そしてお礼のレスポンスが遅れてしまい,すみません。。

質問投稿以降「クラスター分析 サンプルサイズ」のようなワード検索をしても,なかなか適当な話題がみつからず,これだけとったらOKみたいな指標はなさそうな印象でした。

クラスター数を決めるようなもの(例えば http://mjin.doshisha.ac.jp/R/29/29.html などを参照)はあるようなので,大きさを変えて標本を抽出するようなシミュレーション的な方法とかもあるのかな,と考えてみるもののイマイチよい案も浮かばずでした。

なかなか難しいですね(汗)

● 「統計学関連なんでもあり」の過去ログ--- 045 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る