製品開発エンジニアがデータ解析のノウハウを垂れ流します。 統計解析/検定や実験計画、自作ツール。 エンジニアの心構えなど。
今日 | 12/15 | 12/14 | 12/13 | 12/12 | 12/11 | 12/10 | 全参加数 | |
---|---|---|---|---|---|---|---|---|
総合ランキング(IN) | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 1,038,034サイト |
INポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
OUTポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
PVポイント | 72 | 94 | 74 | 222 | 258 | 272 | 290 | 1,282/週 |
科学ブログ | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 2,707サイト |
自然科学 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 293サイト |
技術・工学 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 289サイト |
企業ブログ | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 4,695サイト |
電子部品・デバイス(製造業) | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 31サイト |
今日 | 12/15 | 12/14 | 12/13 | 12/12 | 12/11 | 12/10 | 全参加数 | |
---|---|---|---|---|---|---|---|---|
総合ランキング(OUT) | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 50,887位 | 50,710位 | 1,038,034サイト |
INポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
OUTポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
PVポイント | 72 | 94 | 74 | 222 | 258 | 272 | 290 | 1,282/週 |
科学ブログ | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 135位 | 134位 | 2,707サイト |
自然科学 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 17位 | 17位 | 293サイト |
技術・工学 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 21位 | 22位 | 289サイト |
企業ブログ | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 136位 | 141位 | 4,695サイト |
電子部品・デバイス(製造業) | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 3位 | 3位 | 31サイト |
今日 | 12/15 | 12/14 | 12/13 | 12/12 | 12/11 | 12/10 | 全参加数 | |
---|---|---|---|---|---|---|---|---|
総合ランキング(PV) | 6,485位 | 6,418位 | 6,458位 | 6,428位 | 6,505位 | 6,558位 | 6,638位 | 1,038,034サイト |
INポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
OUTポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
PVポイント | 72 | 94 | 74 | 222 | 258 | 272 | 290 | 1,282/週 |
科学ブログ | 19位 | 20位 | 20位 | 20位 | 20位 | 19位 | 19位 | 2,707サイト |
自然科学 | 3位 | 3位 | 3位 | 3位 | 3位 | 3位 | 3位 | 293サイト |
技術・工学 | 11位 | 11位 | 11位 | 11位 | 11位 | 11位 | 11位 | 289サイト |
企業ブログ | 17位 | 17位 | 17位 | 17位 | 16位 | 17位 | 16位 | 4,695サイト |
電子部品・デバイス(製造業) | 2位 | 2位 | 2位 | 2位 | 2位 | 2位 | 2位 | 31サイト |
データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、お馴染みの偏差値になります。 通常は平均と標準偏差を用いた変換が行われますが、平均や標準偏差は外れ値/異常値の影響を受けます。このため外れ値/異常値に対してロバストなZスコアが提案されています。 (通常の)Zスコア 平均[math] \mu [/math]と標準偏差[math] \sigma [/math]から正規化を行う下記がZスコアです。 得られているデータ[math] X_i [/math]に対して [math] X_i = …
バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で、一様分布に従う乱数の挙動をここ で、確認しました。念押しで、今回は指数分布でサンプルサイズを変化させて応答を見てみます。自習です、業務上で使う上で対象分布の違いによる応答を押さえておきたい。 IQR, MAD, [math] \displaystyle S_n [/math], [math] \d…
バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で確認しました。今回は一様分布でサンプルサイズを変化させて応答を見てみます。自習です。 IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]の比較 範囲[0,1]に分布する一様分布に従う乱数から生成した…
データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]も紹介してきました。今回はサンプルサイズを変化させて応答を見てみます。 IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]の比較 平均=0、標…
”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]も紹介しました。今回も同じくRousseeuwとCrouxら[1]によって提案された[math] \displaystyle Q_n [/math]を紹介します。 RousseeuwとCrouxの[math] \displaystyle Q_n [/math] MADは正規分布では効率性が低く、対称分布には…
”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名ですが、今回はRousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]を紹介します。 RousseeuwとCrouxの[math] \displaystyle S_n [/math] MADは正規分布では効率性が低く、対称分布には必ずしも適しているとは限りません。そこでRousseeuwとCrouxは、MADの代替として2つの統計量を提唱しています。1つ目の統計量[…
”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はMADと標準偏差推定時の補正値について書きます。 範囲(Range)と偏差(deviation) 本題に入る前に統計学における範囲(Range)と偏差(deviation)について説明します。 まず、範囲は得られた(標本)データの最大値と最小値の差分です。観測値からのバラツキの最大範囲を与えます。もちろん、標本数が少ない場合、実データは範囲より大きい(小さい)値をとることもありえますし、外れ値を含む場合は…
”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はIQRと標準偏差推定時の補正値について書きます。 IQR(四分位範囲) 外れ値の影響を受けにくいロバストな統計量としては四分位偏差(IQR, InterQuartile Range)があります。IQRとは第三四分位数と第一四分位数の差です。言い換えるとデータをソートした25パーセンタイルと75パーセンタイルの差分になります。 [math] \displaystyle IQR = x_{75\%} - x_…
箱ひげ図では条件間を平均値などで接続する場合があります。 箱ひげ図とボックス間の接続 箱ひげ図(Boxplot)とは、バラツキを含むデータを上手く要約して可視化したものです。 箱ひげ図の派生型の中で、平均値などで条件間を接続する場合があります。例えば箱ひげ図の箱の中央を形成する中央値を接続してみます。 箱ひげ図の定義から離れて平均値で条件間を接続するケースもあります。 他に平均値、中央値の代替となるものとして、トリム(刈り込み)平均もあります。トリム平均はデータをソートした後、両端A/2 %削除した後に平均を計算するもので、これをA%トリム平均などと呼びます。トリム平均は、外れ値がなければ最尤…
箱ひげ図と並んで、バラツキを含んだデータの代表的な可視化手法である正規確率プロットのオプションについて、取得データをドットプロットで表示する場合があります。 箱ひげ図 箱ひげ図(Boxplot)とは、バラツキを含むデータを上手く要約して可視化したものです。統計的に信頼できるデータのバラツキを箱、判断に迷うものをヒゲとして表します。 Fig.1 箱ひげ図 取得データをドットプロット 箱ひげ図は必要最低限の情報を要約して可視化したものです。追加のオプションとして元のデータをなるべく表示するアプローチがあります。例えば、個別データを中心位置は箱ひげ図と同一としてある規則で散らばらせて表示する手法です…
箱ひげ図と並んで、バラツキを含んだデータの代表的な可視化手法である正規確率プロットについて、縦軸表示の派生型を説明します。 正規確率プロット 正規確率プロットとはQ-Qプロット(quantile-quantile plot)の一種です。Q-Qプロットとは期待している確率分布と実データの対応を可視化したものです。大抵の場合我々は正規分布を期待するので、正規分布ベースの正規Q-Qプロット(正規確率プロット)を使うことが多いです。プロット結果が直線なら「期待した確率分布に従う」ということが言えます。 ※故障確率で使うWeibull分布を使ったWeibull potや、半導体分野では電圧-電流特性が所…
G.ポリアの「いかにして問題をとくか」から問題解決のアプローチ方法を図示します。 G.ポリアの2.「計画を立てること」 未解決課題があるとして、G.ポリアの「計画を立てること」が大変参考になります。要約してみると下記のようになります。本書は問題解決の技法を言い換えながら何度も別の表現方法で書き表しています。数学者がこのように書いているので、おそらく意図的なのでしょう。 類似/類推/関連/簡略化/一般化/特殊/部分 問題はないか 制約条件の変更(影響範囲) 未使用データ/不足データ/全て考慮したか? 課題自体の分解、一般化、特殊化、そして制約条件も分解してみる。手持ちのデータを使いつくしたか、反…
言わずと知れたG.ポリアの名著「いかにして問題をとくか」です。柿内賢信訳の書籍表紙見返りには要約がついています。まずはそこから 「いかにして問題をとくか」の要約 有名な訳は以下です、ちょっと多いのであとで圧縮してみます。 1.問題を理解すること 未知のものは何か、与えられているデータは何か、条件の各部を分離し書きあらわせ。 ○未知のものは何か。与えられているもの(データ)は何か。条件は何か。 ○条件を満足させうるか。 条件は未知のものを定めるのに十分であるか。または、不十分であるか。または、余剰であるか。矛盾しているか。 ○図をかけ。適当な記号を導入せよ。 ○条件の各部を分離せよ。それを書き表…
2標本におけるバラツキの差の検定(1)で紹介した手法を乱数でテストしてみます。正規分布に従う乱数で、外れ値を含めてみます。正規確率プロットで比較してみます。 手法と配色は下記の通りです。 正規分布で外れ値混入率を変化させて比較 サンプル数10の2群データについて、標準偏差1.0と2.0正規乱数に従う1000回試行での結果が下記です。固定値100の外れ値混入率を変化させています。 Fig.1 外れ値混入率=0.0% Fig.2 外れ値混入率=0.5% Fig.3 外れ値混入率=1.0% Fig.4 外れ値混入率=5.0% Fig.5 外れ値混入率=10.0% Fig.6 外れ値混入率=0.0~1…
2標本におけるバラツキの差の検定(1)で紹介した手法を乱数でテストしてみます。一先ず外れ値なしで試行、正規確率プロットで比較してみます。 手法と配色は下記の通りです。 正規分布で比較 サンプル数10の2群データについて、正規乱数に従う1000回試行での結果が下記です。 Fig.1 標準偏差1.0と1.0 Fig.2 標準偏差1.0と1.2 Fig.3 標準偏差1.0と2.0 Fig.4 標準偏差1.0と5.0 Fig.5 標準偏差1.0と1.0~5.0での試行結果 一様分布で比較 サンプル数10の2群データについて、一様乱数に従う1000回試行での結果が下記です。 Fig.6 レンジ1.0と1…
2標本におけるバラツキ差のノンパラメトリック検定を実装してみます。今回はMood検定、Klots検定、Savege検定、Siegel-Tukey検定、Ansari-Bradley検定、Sukhatme検定です。 Mood検定 Mood検定は1954年に提案されています。中央値が等しいことが分かっている2群のサンプルに対して、バラツキに差があるか検定します。 Mood検定では2つのデータ群をマージして昇順でランク付けします。 各郡のサンプル数を[math] \displaystyle n_1 [/math]、[math] \displaystyle n_2 [/math]、サンプル数の和を[ma…
68–95–99.7則というものがあるみたいです。 1,2,3sigma 統計学において68–95–99.7則とは、平均値を中心として両側1sigma、2sigma、3sigmaの幅に入るデータの割合です。より正確には、68.27%、95.45%、 99.73%で、正規分布の累積密度関数から計算されます。 正規分布とそれぞれシグマの範囲では、下記。 対応する範囲を書き表して見ると下記のような感じです。 [math] \displaystyle Pr( \mu - \sigma) \le X \le Pr( \mu + \sigma) \approx 0.6827 [/math] [math] …
工程能力指数(process capability index)のCpとCpkです。 管理限界線と規格値 工程管理では一番わかりやすいのはスペック=規格値と思います。それぞれ上限(USL)と下限(LSL)があります。次に管理線として中心線、および上方管理限界線(UCL)と下方管理限界線(LCL)があり、管理限界線は一般的に中心線に対して標準偏差の3倍の±3σが用いられることが多いです。 ・上限規格値(USL: Upper Specification Limit) ・上方管理限界線(UCL: Upper Control Limit) ・中心線(CL: Central Line) ・下方管理限界線…
自作したウォーターフォールチャートの使い方です。こちらの使い方になります。備忘録のようなものです。 ウォーターフォールチャートの使い方 起動後にFile>Open File(Waterfall)をクリックします。 可視化したいデータを指定するとウォーターフォールチャートが表示されます。 入力データ 本ツールでは下記のようなcsvファイルを読み込ませます。 1行目はヘッダで、1行目2列目がY軸名です。2行目や2列目が空白のロウは決算時期として下記のように表示されます。 まとめ 今回使用したウォーターフォールチャートは、こちらのツールに実装したものです。不明点あれば遠慮なく問い合わせてください。 …
ウォーターフォールチャートを表現する形状にはいくつか派生型があります。いくつか実装してみました、ツールも置いてあります。 ウォーターフォールチャート ウォーターフォールチャートは、数字の増減をわかりやすく表現できるグラフです。見た目が滝のように見えることからこの名前がつけられています。 ウォーターフォールチャートでは正および負の値の累計が表示され、初期値からその累計値に到達した経緯を示す場合に役立ちます。 ウォーターフォールチャート形状の派生型 ウォーターフォールチャートではY軸の増減を可視化することが目的です。例えば応答Yの増減に色付けを体操させる方法がありますが、増加/現象方向のベクトルを…
「ブログリーダー」を活用して、OceanOneさんをフォローしませんか?