製品開発エンジニアがデータ解析のノウハウを垂れ流します。 統計解析/検定や実験計画、自作ツール。 エンジニアの心構えなど。
データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、お馴染みの偏差値になります。 通常は平均と標準偏差を用いた変換が行われますが、平均や標準偏差は外れ値/異常値の影響を受けます。このため外れ値/異常値に対してロバストなZスコアが提案されています。 (通常の)Zスコア 平均[math] \mu [/math]と標準偏差[math] \sigma [/math]から正規化を行う下記がZスコアです。 得られているデータ[math] X_i [/math]に対して [math] X_i = …
バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で、一様分布に従う乱数の挙動をここ で、確認しました。念押しで、今回は指数分布でサンプルサイズを変化させて応答を見てみます。自習です、業務上で使う上で対象分布の違いによる応答を押さえておきたい。 IQR, MAD, [math] \displaystyle S_n [/math], [math] \d…
バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で確認しました。今回は一様分布でサンプルサイズを変化させて応答を見てみます。自習です。 IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]の比較 範囲[0,1]に分布する一様分布に従う乱数から生成した…
データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]も紹介してきました。今回はサンプルサイズを変化させて応答を見てみます。 IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]の比較 平均=0、標…
”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]も紹介しました。今回も同じくRousseeuwとCrouxら[1]によって提案された[math] \displaystyle Q_n [/math]を紹介します。 RousseeuwとCrouxの[math] \displaystyle Q_n [/math] MADは正規分布では効率性が低く、対称分布には…
”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名ですが、今回はRousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]を紹介します。 RousseeuwとCrouxの[math] \displaystyle S_n [/math] MADは正規分布では効率性が低く、対称分布には必ずしも適しているとは限りません。そこでRousseeuwとCrouxは、MADの代替として2つの統計量を提唱しています。1つ目の統計量[…
”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はMADと標準偏差推定時の補正値について書きます。 範囲(Range)と偏差(deviation) 本題に入る前に統計学における範囲(Range)と偏差(deviation)について説明します。 まず、範囲は得られた(標本)データの最大値と最小値の差分です。観測値からのバラツキの最大範囲を与えます。もちろん、標本数が少ない場合、実データは範囲より大きい(小さい)値をとることもありえますし、外れ値を含む場合は…
”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はIQRと標準偏差推定時の補正値について書きます。 IQR(四分位範囲) 外れ値の影響を受けにくいロバストな統計量としては四分位偏差(IQR, InterQuartile Range)があります。IQRとは第三四分位数と第一四分位数の差です。言い換えるとデータをソートした25パーセンタイルと75パーセンタイルの差分になります。 [math] \displaystyle IQR = x_{75\%} - x_…
「ブログリーダー」を活用して、OceanOneさんをフォローしませんか?