chevron_left

メインカテゴリーを選択しなおす

cancel
Engineering Skills https://oceanone.hatenablog.com/

製品開発エンジニアがデータ解析のノウハウを垂れ流します。 統計解析/検定や実験計画、自作ツール。 エンジニアの心構えなど。

OceanOne
フォロー
住所
未設定
出身
未設定
ブログ村参加

2021/05/14

  • ロバストZスコア(2)

    データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、お馴染みの偏差値になります。 通常は平均と標準偏差を用いた変換が行われますが、平均や標準偏差は外れ値/異常値の影響を受けます。このため外れ値/異常値に対してロバストなZスコアが提案されています。 (通常の)Zスコア 平均[math] \mu [/math]と標準偏差[math] \sigma [/math]から正規化を行う下記がZスコアです。 得られているデータ[math] X_i [/math]に対して [math] X_i = …

  • バラツキのロバスト統計量(7)- 指数分布で比較

    バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で、一様分布に従う乱数の挙動をここ で、確認しました。念押しで、今回は指数分布でサンプルサイズを変化させて応答を見てみます。自習です、業務上で使う上で対象分布の違いによる応答を押さえておきたい。 IQR, MAD, [math] \displaystyle S_n [/math], [math] \d…

  • バラツキのロバスト統計量(6)- 一様分布で比較

    バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で確認しました。今回は一様分布でサンプルサイズを変化させて応答を見てみます。自習です。 IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]の比較 範囲[0,1]に分布する一様分布に従う乱数から生成した…

  • バラツキのロバスト統計量(5)

    データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]も紹介してきました。今回はサンプルサイズを変化させて応答を見てみます。 IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]の比較 平均=0、標…

  • バラツキのロバスト統計量(4)

    ”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]も紹介しました。今回も同じくRousseeuwとCrouxら[1]によって提案された[math] \displaystyle Q_n [/math]を紹介します。 RousseeuwとCrouxの[math] \displaystyle Q_n [/math] MADは正規分布では効率性が低く、対称分布には…

  • バラツキのロバスト統計量(3)

    ”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名ですが、今回はRousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]を紹介します。 RousseeuwとCrouxの[math] \displaystyle S_n [/math] MADは正規分布では効率性が低く、対称分布には必ずしも適しているとは限りません。そこでRousseeuwとCrouxは、MADの代替として2つの統計量を提唱しています。1つ目の統計量[…

  • バラツキのロバスト統計量(2)

    ”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はMADと標準偏差推定時の補正値について書きます。 範囲(Range)と偏差(deviation) 本題に入る前に統計学における範囲(Range)と偏差(deviation)について説明します。 まず、範囲は得られた(標本)データの最大値と最小値の差分です。観測値からのバラツキの最大範囲を与えます。もちろん、標本数が少ない場合、実データは範囲より大きい(小さい)値をとることもありえますし、外れ値を含む場合は…

  • バラツキのロバスト統計量(1)

    ”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はIQRと標準偏差推定時の補正値について書きます。 IQR(四分位範囲) 外れ値の影響を受けにくいロバストな統計量としては四分位偏差(IQR, InterQuartile Range)があります。IQRとは第三四分位数と第一四分位数の差です。言い換えるとデータをソートした25パーセンタイルと75パーセンタイルの差分になります。 [math] \displaystyle IQR = x_{75\%} - x_…

ブログリーダー」を活用して、OceanOneさんをフォローしませんか?

ハンドル名
OceanOneさん
ブログタイトル
Engineering Skills
フォロー
Engineering Skills

にほんブログ村 カテゴリー一覧

商用