データ解析

Last modified: Oct 19, 2015

以下のようなデータ解析を,もし Excel を使ってやるとしたらどうだろうか?


1 データ解析の例 1

髪と目の色のデータ(HairEyeColor.csv) をダウンロードし,以下のような集計表を作成する。


2 データ解析の例 2

アヤメのデータ(iris.csv) をダウンロードする。


2.1 ヒストグラム

Sepal.Length について,以下のようなヒストグラムを作成する。


2.2 集計表

以下のような集計表を作成する。


3 データ解析の例 3

 1949/1 〜 1960/12 までの毎月の航空旅客数のデータ(AirPassengers.dat) をダウンロードし,以下のような分析を行う。

     Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
1949 112 118 132 129 121 135 148 148 136 119 104 118 
1950 115 126 141 135 125 149 170 170 158 133 114 140 
1951 145 150 178 163 172 178 199 199 184 162 146 166 
1952 171 180 193 181 183 218 230 242 209 191 172 194 
1953 196 196 236 235 229 243 264 272 237 211 180 201 
1954 204 188 235 227 234 264 302 293 259 229 203 229 
1955 242 233 267 269 270 315 364 347 312 274 237 278 
1956 284 277 317 313 318 374 413 405 355 306 271 306 
1957 315 301 356 348 355 422 465 467 404 347 305 336 
1958 340 318 362 348 363 435 491 505 404 359 310 337 
1959 360 342 406 396 420 472 548 559 463 407 362 405 
1960 417 391 419 461 472 535 622 606 508 461 390 432 

 どのような道具を使って,どのようにして,答えを見つけることができるだろうか?

  1. Excel にデータを取り込んでみよう(図 1)

  2. 横軸に時間,縦軸に旅客数をとって,折れ線図を描いてみよう(図 2)

    この図から何がわかるか

  3. 1949 年から 1960 年までの 12 年間のデータについて,各月の平均値,分散,標準偏差を求めてみよう(図 3)


    それを折れ線図に描いてみよう(図 4)


    旅客数の多い月・少ない月はいつか

  4. 一年間の平均値を求めよう(図 5)


    それを折れ線図に描いてみよう(図 6)


    どのような理論曲線に従って増えているのだろうか(図 7)


    年率何パーセントくらい増えているのだろうか(図 8)

  5. \(旅客数の予測値=f(月, 時間)\)で予測するとき,どのような手法が使えるだろうか

    月を表す 12 個の変数を考える

    時間を表す変数としては 1949 年 1 月 〜 1960 年 12 月を 1 〜 144 の数値(通し月数)を使うことを考えよう(図 9)

    \(旅客数の予測値=a_1*「1 月であること」+a_2*「2 月であること」+\cdots +a_{12}*「12月であること」+b*「通し月数」\) で分析できるだろうか

    昔は「分析ツール」に「回帰分析」というのがあった(図 10,11,12,13)





    今は,どうするか…