No.20469 計算における重みの扱い  【ハルヒコ】 2013/11/12(Tue) 19:26

論文を読んでいて以下の式に出会い,わからなかったため質問させていただきます.

データベース上からある人と似たデータを持つ人を選び出す方法があって
・一人あたり10種類のデータ(長さ)がある
・データベースには,50人分のデータがある
この時以下の式で求めた値がデータベース上で一番小さな人を選び出されます.

10
Σ{(Di-di)^2/σi^2}
i=1

Di(i=1~10)はデータベースの人の値,di(i=1~10)が調べたい人の値です.

この時分散で割っているのはどういう意味が考えられますでしょうか?
10種類のデータそれぞれの重みを合わせていると思ったのですが.どうでしょうか

よろしくおねがいいたします.

No.20471 Re: 計算における重みの扱い  【青木繁伸】 2013/11/13(Wed) 08:40

結果としては分散で割っているように見えるけど,段階を追ってみていけば,やっていることの本質が分かる。

変数ごとに標準偏差がことなるので,まずは標準化する
(Di-μi)/σi,(di-μi)/σi

距離を求める
(Di-μi)/σi - (di-μi)/σi = (Di-di)/σi

これではマイナスが出てくるので,日常生活での「距離」は暗黙の内に絶対値をとっているのだけど,数学的に取り扱いが容易なように,二乗する(大きな違いはより大きな違いとして評価される)
(Di-di)^2/σi^2

No.20473 Re: 計算における重みの扱い  【ハルヒコ】 2013/11/13(Wed) 19:35

回答いただきありがとうございます
標準化するとわかりやすいのですね
偏差値を求めるのと同じようなことをしているように思いました.

重ねての質問になりますが,同様の方法を用いたとき,
10種類のデータの中に角度等,長さとは違う尺度(次元?)を混ぜた場合にもこのように分散でわってあげれば重みは10種類データ同士(長さのデータと角度等のデータ間)で合わせることができるのでしょうか?

No.20474 Re: 計算における重みの扱い  【青木繁伸】 2013/11/14(Thu) 09:50

標準化得点は無名数ですので,単位の異なる変数を同等に扱うことができるのです。

● 「統計学関連なんでもあり」の過去ログ--- 046 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る