chevron_left

メインカテゴリーを選択しなおす

cancel
Engineering Skills https://oceanone.hatenablog.com/

製品開発エンジニアがデータ解析のノウハウを垂れ流します。 統計解析/検定や実験計画、自作ツール。 エンジニアの心構えなど。

OceanOne
フォロー
住所
未設定
出身
未設定
ブログ村参加

2021/05/14

arrow_drop_down
  • ロバストZスコア(2)

    データ集合が与えらえた時、平均0と標準偏差1になるようデータを標準化することを正規化と呼び、変換された数値をZスコアと呼びます。Zスコアを10倍し50足した数値は、お馴染みの偏差値になります。 通常は平均と標準偏差を用いた変換が行われますが、平均や標準偏差は外れ値/異常値の影響を受けます。このため外れ値/異常値に対してロバストなZスコアが提案されています。 (通常の)Zスコア 平均[math] \mu [/math]と標準偏差[math] \sigma [/math]から正規化を行う下記がZスコアです。 得られているデータ[math] X_i [/math]に対して [math] X_i = …

  • バラツキのロバスト統計量(7)- 指数分布で比較

    バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で、一様分布に従う乱数の挙動をここ で、確認しました。念押しで、今回は指数分布でサンプルサイズを変化させて応答を見てみます。自習です、業務上で使う上で対象分布の違いによる応答を押さえておきたい。 IQR, MAD, [math] \displaystyle S_n [/math], [math] \d…

  • バラツキのロバスト統計量(6)- 一様分布で比較

    バラツキに関するロバスト(ノンパラメトリック)統計量で、IQRとMAD、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]について正規分布に従う乱数の挙動をここ で確認しました。今回は一様分布でサンプルサイズを変化させて応答を見てみます。自習です。 IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]の比較 範囲[0,1]に分布する一様分布に従う乱数から生成した…

  • バラツキのロバスト統計量(5)

    データの平均値、中央値ではデータ中心位置の外れ値にロバストな統計量を記載しました。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]や[math] \displaystyle Q_n [/math]も紹介してきました。今回はサンプルサイズを変化させて応答を見てみます。 IQR, MAD, [math] \displaystyle S_n [/math], [math] \displaystyle Q_n [/math]の比較 平均=0、標…

  • バラツキのロバスト統計量(4)

    ”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名で、RousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]も紹介しました。今回も同じくRousseeuwとCrouxら[1]によって提案された[math] \displaystyle Q_n [/math]を紹介します。 RousseeuwとCrouxの[math] \displaystyle Q_n [/math] MADは正規分布では効率性が低く、対称分布には…

  • バラツキのロバスト統計量(3)

    ”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。今回もバラツキに関するロバスト(ノンパラメトリック)統計量です。IQRとMADが有名ですが、今回はRousseeuwとCrouxら[1]によって提案された[math] \displaystyle S_n [/math]を紹介します。 RousseeuwとCrouxの[math] \displaystyle S_n [/math] MADは正規分布では効率性が低く、対称分布には必ずしも適しているとは限りません。そこでRousseeuwとCrouxは、MADの代替として2つの統計量を提唱しています。1つ目の統計量[…

  • バラツキのロバスト統計量(2)

    ”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はMADと標準偏差推定時の補正値について書きます。 範囲(Range)と偏差(deviation) 本題に入る前に統計学における範囲(Range)と偏差(deviation)について説明します。 まず、範囲は得られた(標本)データの最大値と最小値の差分です。観測値からのバラツキの最大範囲を与えます。もちろん、標本数が少ない場合、実データは範囲より大きい(小さい)値をとることもありえますし、外れ値を含む場合は…

  • バラツキのロバスト統計量(1)

    ”データの平均値、中央値”ではデータ中心位置の外れ値にロバストな統計量を記載します。バラツキに関してもロバスト(ノンパラメトリック)な統計量があります。IQRとMADと言ったものですが、今回はIQRと標準偏差推定時の補正値について書きます。 IQR(四分位範囲) 外れ値の影響を受けにくいロバストな統計量としては四分位偏差(IQR, InterQuartile Range)があります。IQRとは第三四分位数と第一四分位数の差です。言い換えるとデータをソートした25パーセンタイルと75パーセンタイルの差分になります。 [math] \displaystyle IQR = x_{75\%} - x_…

  • 箱ひげ図 ー ボックス間の接続

    箱ひげ図では条件間を平均値などで接続する場合があります。 箱ひげ図とボックス間の接続 箱ひげ図(Boxplot)とは、バラツキを含むデータを上手く要約して可視化したものです。 箱ひげ図の派生型の中で、平均値などで条件間を接続する場合があります。例えば箱ひげ図の箱の中央を形成する中央値を接続してみます。 箱ひげ図の定義から離れて平均値で条件間を接続するケースもあります。 他に平均値、中央値の代替となるものとして、トリム(刈り込み)平均もあります。トリム平均はデータをソートした後、両端A/2 %削除した後に平均を計算するもので、これをA%トリム平均などと呼びます。トリム平均は、外れ値がなければ最尤…

  • 箱ひげ図 ー ドットプロット

    箱ひげ図と並んで、バラツキを含んだデータの代表的な可視化手法である正規確率プロットのオプションについて、取得データをドットプロットで表示する場合があります。 箱ひげ図 箱ひげ図(Boxplot)とは、バラツキを含むデータを上手く要約して可視化したものです。統計的に信頼できるデータのバラツキを箱、判断に迷うものをヒゲとして表します。 Fig.1 箱ひげ図 取得データをドットプロット 箱ひげ図は必要最低限の情報を要約して可視化したものです。追加のオプションとして元のデータをなるべく表示するアプローチがあります。例えば、個別データを中心位置は箱ひげ図と同一としてある規則で散らばらせて表示する手法です…

  • 正規確率プロット縦軸表示方法

    箱ひげ図と並んで、バラツキを含んだデータの代表的な可視化手法である正規確率プロットについて、縦軸表示の派生型を説明します。 正規確率プロット 正規確率プロットとはQ-Qプロット(quantile-quantile plot)の一種です。Q-Qプロットとは期待している確率分布と実データの対応を可視化したものです。大抵の場合我々は正規分布を期待するので、正規分布ベースの正規Q-Qプロット(正規確率プロット)を使うことが多いです。プロット結果が直線なら「期待した確率分布に従う」ということが言えます。 ※故障確率で使うWeibull分布を使ったWeibull potや、半導体分野では電圧-電流特性が所…

  • いかにして問題をとくか(2)

    G.ポリアの「いかにして問題をとくか」から問題解決のアプローチ方法を図示します。 G.ポリアの2.「計画を立てること」 未解決課題があるとして、G.ポリアの「計画を立てること」が大変参考になります。要約してみると下記のようになります。本書は問題解決の技法を言い換えながら何度も別の表現方法で書き表しています。数学者がこのように書いているので、おそらく意図的なのでしょう。 類似/類推/関連/簡略化/一般化/特殊/部分 問題はないか 制約条件の変更(影響範囲) 未使用データ/不足データ/全て考慮したか? 課題自体の分解、一般化、特殊化、そして制約条件も分解してみる。手持ちのデータを使いつくしたか、反…

  • いかにして問題をとくか(1)

    言わずと知れたG.ポリアの名著「いかにして問題をとくか」です。柿内賢信訳の書籍表紙見返りには要約がついています。まずはそこから 「いかにして問題をとくか」の要約 有名な訳は以下です、ちょっと多いのであとで圧縮してみます。 1.問題を理解すること 未知のものは何か、与えられているデータは何か、条件の各部を分離し書きあらわせ。 ○未知のものは何か。与えられているもの(データ)は何か。条件は何か。 ○条件を満足させうるか。 条件は未知のものを定めるのに十分であるか。または、不十分であるか。または、余剰であるか。矛盾しているか。 ○図をかけ。適当な記号を導入せよ。 ○条件の各部を分離せよ。それを書き表…

  • 2標本におけるバラツキの差の検定(3)

    2標本におけるバラツキの差の検定(1)で紹介した手法を乱数でテストしてみます。正規分布に従う乱数で、外れ値を含めてみます。正規確率プロットで比較してみます。 手法と配色は下記の通りです。 正規分布で外れ値混入率を変化させて比較 サンプル数10の2群データについて、標準偏差1.0と2.0正規乱数に従う1000回試行での結果が下記です。固定値100の外れ値混入率を変化させています。 Fig.1 外れ値混入率=0.0% Fig.2 外れ値混入率=0.5% Fig.3 外れ値混入率=1.0% Fig.4 外れ値混入率=5.0% Fig.5 外れ値混入率=10.0% Fig.6 外れ値混入率=0.0~1…

  • 2標本におけるバラツキの差の検定(2)

    2標本におけるバラツキの差の検定(1)で紹介した手法を乱数でテストしてみます。一先ず外れ値なしで試行、正規確率プロットで比較してみます。 手法と配色は下記の通りです。 正規分布で比較 サンプル数10の2群データについて、正規乱数に従う1000回試行での結果が下記です。 Fig.1 標準偏差1.0と1.0 Fig.2 標準偏差1.0と1.2 Fig.3 標準偏差1.0と2.0 Fig.4 標準偏差1.0と5.0 Fig.5 標準偏差1.0と1.0~5.0での試行結果 一様分布で比較 サンプル数10の2群データについて、一様乱数に従う1000回試行での結果が下記です。 Fig.6 レンジ1.0と1…

  • 2標本におけるバラツキの差の検定(1)

    2標本におけるバラツキ差のノンパラメトリック検定を実装してみます。今回はMood検定、Klots検定、Savege検定、Siegel-Tukey検定、Ansari-Bradley検定、Sukhatme検定です。 Mood検定 Mood検定は1954年に提案されています。中央値が等しいことが分かっている2群のサンプルに対して、バラツキに差があるか検定します。 Mood検定では2つのデータ群をマージして昇順でランク付けします。 各郡のサンプル数を[math] \displaystyle n_1 [/math]、[math] \displaystyle n_2 [/math]、サンプル数の和を[ma…

  • 68–95–99.7則

    68–95–99.7則というものがあるみたいです。 1,2,3sigma 統計学において68–95–99.7則とは、平均値を中心として両側1sigma、2sigma、3sigmaの幅に入るデータの割合です。より正確には、68.27%、95.45%、 99.73%で、正規分布の累積密度関数から計算されます。 正規分布とそれぞれシグマの範囲では、下記。 対応する範囲を書き表して見ると下記のような感じです。 [math] \displaystyle Pr( \mu - \sigma) \le X \le Pr( \mu + \sigma) \approx 0.6827 [/math] [math] …

  • 工程能力

    工程能力指数(process capability index)のCpとCpkです。 管理限界線と規格値 工程管理では一番わかりやすいのはスペック=規格値と思います。それぞれ上限(USL)と下限(LSL)があります。次に管理線として中心線、および上方管理限界線(UCL)と下方管理限界線(LCL)があり、管理限界線は一般的に中心線に対して標準偏差の3倍の±3σが用いられることが多いです。 ・上限規格値(USL: Upper Specification Limit) ・上方管理限界線(UCL: Upper Control Limit) ・中心線(CL: Central Line) ・下方管理限界線…

  • ウォーターフォールチャートツール

    自作したウォーターフォールチャートの使い方です。こちらの使い方になります。備忘録のようなものです。 ウォーターフォールチャートの使い方 起動後にFile>Open File(Waterfall)をクリックします。 可視化したいデータを指定するとウォーターフォールチャートが表示されます。 入力データ 本ツールでは下記のようなcsvファイルを読み込ませます。 1行目はヘッダで、1行目2列目がY軸名です。2行目や2列目が空白のロウは決算時期として下記のように表示されます。 まとめ 今回使用したウォーターフォールチャートは、こちらのツールに実装したものです。不明点あれば遠慮なく問い合わせてください。 …

  • ウォーターフォールチャート形状の派生型

    ウォーターフォールチャートを表現する形状にはいくつか派生型があります。いくつか実装してみました、ツールも置いてあります。 ウォーターフォールチャート ウォーターフォールチャートは、数字の増減をわかりやすく表現できるグラフです。見た目が滝のように見えることからこの名前がつけられています。 ウォーターフォールチャートでは正および負の値の累計が表示され、初期値からその累計値に到達した経緯を示す場合に役立ちます。 ウォーターフォールチャート形状の派生型 ウォーターフォールチャートではY軸の増減を可視化することが目的です。例えば応答Yの増減に色付けを体操させる方法がありますが、増加/現象方向のベクトルを…

  • ウォーターフォールチャートのカラーリング

    ウォーターフォールチャートのカラーリングで遊んでみました。実装ツールも置いてあります。 ウォーターフォールチャート ウォーターフォールチャートは、数字の増減をわかりやすく表現できるグラフです。見た目が滝のように見えることからこの名前がつけられています。 ウォーターフォールチャートでは正および負の値の累計が表示され、初期値からその累計値に到達した経緯を示す場合に役立ちます。 ウォーターフォールチャートの配色 ウォーターフォールチャートではY軸の増減を可視化することが目的です。例えば応答Yが望大特性の場合は、増加項目を"増加"=青、減少項目を"減少"=赤などとすると分かりやすいです。 色見は押さえ…

  • ウォーターフォールチャート

    ウォーターフォールチャートについての説明と実装結果です。 ウォーターフォールチャート ウォーターフォールチャートは、数字の増減をわかりやすく表現できるグラフです。見た目が滝のように見えることからこの名前がつけられています。 ウォーターフォールチャートでは正および負の値の累計が表示され、初期値からその累計値に到達した経緯を示す場合に役立ちます。 一例を上記に示します。"実績"から"予測"までは、要因Cが減少要因で他は増加要因であることが一目でわかります。このように予測値などの最終目標となる数詞の根拠、構成などを直感的に可視化することができます。応答Yに対する加減算のため、初見の方にもわかりやすく…

  • ミッドレンジ

    ミッドレンジについて特性を確かめてみます。 ミッドレンジ 統計学においてミッドレンジ(mid-range)は分布中心を推定する指標の一つにです。具体的には最大値と最小値の中心値(平均値)です。 この定義を聞いて想像される通り、ミッドレンジは外れ値に弱いです。ロバストではありません。本来の母集団とは大きく異なる外れ値は最大値/最小値を大きく変化させるため、ミッドレンジも影響を大きく受けます。このため実用上でミッドレンジを扱うことはほとんどありません。 ただし特殊なケースではミッドレンジは有用となりえます。解析対象が正規分布ではなく一様分布の場合、ミッドレンジは効率的な中心値の推定値となるようです…

  • 標準偏回帰係数

    重回帰の標準偏回帰係数についての説明と実装結果です。 標準偏回帰係数 重回帰分析を行った結果得られる、偏回帰係数つまり各説明変数の係数ですが、これはもちろん単位系や各説明変数の大小に依存します。例えば、測定単位を g から kg に変えると偏回帰係数は 1 / 1000 の大きさになります。また、重さや長さなど単位系の異なる説明変数の偏回帰係数を比較しても意味がありません。そこで、偏回帰係数の大きさが測定単位によって左右されないようにするために、応答と各説明変数を平均 0、分散 1 に標準化(正規化)することが考えられます。標準化されたデータに基づいて計算された偏回帰係数を、標準偏回帰係数(S…

  • 決定的スクリーニング計画をFDSプロットで比較

    決定的スクリーニング計画を紹介していますが、実験計画の比較ツールであるFDSプロットで類似計画と比較してみます。 決定的スクリーニング計画と類似計画の比較 決定的スクリーニング計画(Definitive screening design, DSD)は2次の効果も推定できる最適化計画ですが、類似の実験計画である中心複合計画(Central Composite Design, CCD)、 Box-Behnken計画(Box-Behnken Design, BBD)、 Doehlert計画(Doehlert Design, DD)と比較してみます。要因数毎の実験回数を下記に比較します。各実験計画の実…

  • 決定的スクリーニング計画

    実験計画法の中の、決定的スクリーニング計画について書きます。 決定的スクリーニング計画 まずスクリーニング計画とは、実験の初期段階で重要な因子を特定するための実験を少ない試行数で特定する計画です。決定的スクリーニング計画はモデル式として多項式二次など曲面性を仮定して最適化を行う実験計画法(Design of Experiment, DOE)の一種です。 決定的スクリーニング計画はJonesとNachtsheim[1]に提案され、Xiaoら[2]によってカンファレンス行列を用いて3水準の決定的スクリーニング計画が定式化されることが示されました。この計画は取り上げたn個の因子に対して2n+1回の実…

  • Quade検定

    Quade(クェード)検定について記述します。 Quade(クェード)検定 Quade検定はFriedman検定と同様に、2元配置や乱塊法のようなブロック因子を考慮した対応のある1元配置の実験計画のノンパラメトリックな検定手法です。Quade検定はウィルコクソンの符号順位検定 (Wilcoxon signed rank test) を2因子以上を扱えるようにした拡張版にあたり、アメリカの生物統計学者Dana Quadeの名に因むそうです。同じくノンパラメトリック検定であるFriedman検定では、対応するデータ内で順位付けをする際にバラツキを考慮しませんが、今回紹介するQuade検定は各データ…

  • Iman-Davenport検定

    Friedman検定修正版のIman-Davenport(イマン・ダベンポート)検定です。 Iman-Davenport(イマン・ダベンポート)検定 Friedman検定はノンパラメトリック検定で、対応のある2群以上の多群の差を検定する手法です。Friedman検定の特徴として保守的である(=有意差が出にくい)という問題があり、修正版のIman-Davenport検定[1]が提案されています。 Iman-Davenport検定の計算方法 Friedman検定では対応するデータ集合に対して順位付けを行い、この順位を各郡ごとに足して。[math] \displaystyle R_i [/math]…

  • Friedman検定

    Kruskal-Wallis検定に続いてFriedman検定です。実務でも使う機会は多いはずですが、Kruskal-Wallis検定が普通でないとFriedman検定は使わない気がします。でも適用機会は多いので。 Friedman検定 Friedman検定は、乱塊法のために開発された手法です。ノンパラメトリック検定の一つで、対応のある2群以上の多群の差を検定します。対応のある一元配置分散分析や二元配置分散分析に対応するノンパラメトリック検定と捉えると良いです。対応する各行毎にデータの順位付けを行い、検定対象となる各列毎に順位和を求めて検定統計量を行います。 Friedman検定の計算方法 Fr…

  • Kruskal-Wallis検定

    一元配置分散分析に対応するノンパラメトリック検定としてKruskal-Wallis検定があります。実務でも良く使う手法だと思います。が、これまで記事中で触れた事はあるのですが記事にしていないことに気づきました。ということで、Kruskal-Wallis検定です。 Kruskal-Wallis検定でわかる事 Kruskal-Wallis(クラスカル・ウォリス)検定は、3つ以上のグループ間に差があるかどうかを知りたい時に用いるノンパラメトリック検定です。一元配置分散分析が3つ以上の水準の平均の差を検定するのに対し、Kruskal-Wallis検定は3つ以上の水準の中央値の差を検定します。なので、分…

  • グラフのフォント

    回帰分析を中心に色々な可視化方法(作図)を説明してきましたが、図(グラフ)の中には文字があります。グラフ中の文字について、どのようなフォントを使う一般論をまとめています。私自身はデータとそれを説明する科学的なモデルが重要だと思っているので、誤解なく伝われば何でも良いと思います。で、誤解なくが難しいのですが。 セリフフォントとグラフ まず、フォントの大別として、セリフ体[1]というものがあります。セリフ(Serif)とは、文字端部にある小さな飾りの事を指します。セリフを持つ書体をローマン体と呼び、セリフのない書体はサンセリフ体[2]と呼ばれます。「サン」とは、フランス語で「〜のない」という意味で…

  • DFFITS

    回帰分析の診断方法の一つに、てこ比というものがあります。これをさらに拡張するとCookの距離やDFFITSといった指標に繋がります。 Cookの距離(Cook’s distance) Cook の距離はアメリカの統計学者 R. Dennis Cookの名にちなみます。彼は1977年にこの概念を導入しています。[1] Cook の距離は全てデータ用いた場合と1つのデータを除いた後求めた回帰式による予測値を用いた場合との差に関する指標です。Cook の距離が大きいと、そのデータが予測値に大きな影響を与えていることになります。つまりCook の距離が大きいデータは異常値である可能性があります。一つの…

  • クックの距離(Cook’s distance)

    回帰分析の診断方法の一つに、てこ比というものがあります。これをさらに拡張するとCook の距離やDFFITSといった指標に繋がります。今回はCookの距離について。 Cook の距離(Cook’s distance) Cook の距離はアメリカの統計学者 R. Dennis Cookの名にちなみます。彼は1977年にこの概念を導入しています。[1] Cook の距離は全てデータ用いた場合と1つのデータを除いた後求めた回帰式による予測値を用いた場合との差に関する指標です。Cook の距離が大きいと、そのデータが予測値に大きな影響を与えていることになります。つまりCook の距離が大きいデータは異…

  • てこ比

    今回はてこ比について。各観測値が推定値に与える影響、および全体の平均からどの程度ずれているかを示す指標で、0 から 1 までの値をとります。 まずはモデル式(最小二乗法) まずはモデル式の多項式近似パラメータ推定について、最小二乗法で求めます。モデルは下記で、以下データの数を[math] \displaystyle n [/math]、近似パラメータの数を[math] \displaystyle p [/math]とします。 [math] \displaystyle y ={\beta}_0 + \sum_{i=1}^{n}{{\beta}_i x_i} [/math] これを行列式で表します…

  • Doehlert計画

    最適化計画の中で、Doehlert計画というものがあります。マイナーです。類似手法の中心複合計画やBox-Benken計画と比較してみます。 Doehlert計画 Doehlert計画はモデル式として多項式二次など曲面性を仮定して最適化を行う実験計画法(Design of Experiment, DOE)の一種です。同様なDOEのうち代表的なものに中心複合計画(CCD)やBox-Benken計画(BBD)などがあります。 3因子実験で中心複合計画, Box-Benken計画, Doehlert計画(DD)を比較したものが下記です。実験回数としては中心複合計画>Box-Benken計画>Doeh…

  • 実験計画法の俯瞰図

    様々な実験計画法の手法を俯瞰してみます。 俯瞰図 実験計画法には様々な手法があり、一見すると関係がよくわかりません。 分類法の一つとして、要因効果のモデルが上げられます。最も単純なものは交互作用がなく単一パラメータの効果の重ね合わせであるもの。次に交互作用を考慮するもの。これらについて影響度の高い因子を抽出する実験計画は、スクリーニング実験に分類されます。さらに非線形な要因効果(例えばモデル式として多項式2次近似)を想定し極値を持つような最適値探索を行う実験を最適化実験と呼びます。作成された予測モデルは応答曲面(response surface)と呼ばれる。 横軸として実験計画法の種類を取りま…

  • (実験計画)相関マップとグラデーション色

    実験計画の相関マップについてこちら で説明しましたが、相関マップのグラデーション色について気になり模様替えしてみました。 相関マップ 実験計画の相関マップは一部の統計ソフトに実装されています。実験水準の各変数間の相関係数を可視化したもので、よく見られる例では下記のようなマップになります。 他の色も試したいわけですが、白色から単色へのグラデーションだと、 白⇒黒はグレイスケールなので、良いですね。 白色からのその他のグラデーションだと、 難しいですね。なんだか、主張が弱いというか、責任感に欠けるというか。 まとめ 実験計画の各因子間の関係などを可視化する相関マップについて模様替えしてみましたが、…

  • 実験計画の相関マップ

    実験計画の各因子間の関係(交絡)を可視化する手法の一つとして相関マップがあります。各実験計画でマップ作成してみます。 相関マップ 実験計画の相関マップは一部の統計ソフトに実装されています。実験水準の各変数間の相関係数相関係数を可視化したものです。よく見られる例では相関係数の絶対値を0~1を青から赤に対応させ、対角線は自分自身との相関(=1)なので赤く、これ以外との相関が低い(青色)と良い計画と判断されます。 効率的な実験計画を追及して実験回数を減らすと、交互作用項に相関を持つ場合があります。L8で一つ目の変数(X1)と、自身以外との変数及び交互作用との相関係数を表示すると下記のようになります。…

  • Plakett-Burman計画

    ちょっと間がありましたが実験計画法です。主効果に寄与する因子スクリーニングのための実験計画であるブラケット・バーマン計画について。パレートの法則について紹介してみます。 ブラケット・バーマン計画 プラケット・バーマン(Plakett-Burman)計画は、1946年にRobin L. PlackettとJ. P. Burman によって提案された2水準の実験計画法です。プラケット・バーマン計画では、主効果は二元交互作用と交絡しているので、交互作用が無視できることが前提です。このため主効果のみを予測する際の実験計画として適しており、最適化実行時の入力パラメータやその範囲を限定するためのスクリーニ…

  • パレートの法則

    経験則の一つですが、パレートの法則について紹介してみます。 パレートの法則 パレートの法則は、イタリアの経済学者ヴィルフレド・パレートが発見した冪乗則です。パレートは所得分布の不均衡を明らかにした際に、「社会全体の8割の富が2割の高額所得者に集中し、残りの2割の富が8割の低所得者に配分される」という法則を発見。8割の結果は2割の要因から生まれることから、80:20の法則と呼ばれることもあります。パレートの名は多目的最適化におけるパレートフロントにも見ることができます。 経済以外にもさまざまな事例に当てはめられますが、法則というよりは経験則です。自然/社会現象は大抵の場合正規分布でなくばらつきや…

  • レーダーチャート(5)ー 背景

    複数項目を一括表示出来るレーダーチャートの背景について。同心円状グラフで白一色の背景もありですが、少し工夫する余地があるので遊んでみましょう。 レーダーチャートの背景 レーダーチャートは複数特性値を持つ系列について各項目を一括で可視化することができます。例えば4系列では下記のように可視化できます。 白一色だとやや無味乾燥ですが、例えば背景をグレイ色とストライプにするとこのような感じなります。グラフデータの場合によっては、目盛り間をハッキリ識別できるストライプの方がデータの視認性が高い場合があります。 ストライプの場合反転バージョンもあります、基本的には上述の通りですが反転した方が視認しやすい場…

  • レーダーチャート(4)ー 進捗の比較

    複数項目を一括表示出来るレーダーチャートですが、複数項目の達成度表示に応用する事も可能です。 レーダーチャートを使った達成度の確認 レーダーチャートは複数特性値を持つ系列について各項目を一括で可視化する手法です。応用例として複数項目の達成度を可視化することも出来ます。 一番単純な方法としては一つのチャート上で時系列の複数系列を描く事です。 このままだと時系列が良くわからないので、同系色でグラデーションすると良いです。 大抵の場合、最も重要な数値は最新の特性値です(本当は未来 or 予測が重要ですが、推定になるため精度の懸念が残る)。このため、最新の特性値を強調する形で、最新値のみfillすると…

  • レーダーチャート(3)ー 複数系列の比較

    今回はレーダーチャートにおける複数系列の比較です。 レーダーチャートにおける複数系列比較 レーダーチャートは複数特性値を持つ系列について各項目を一括で可視化する手法ですが、複数系列について比較をしたい場合があります。 一番単純な方法としては一つのチャート上で複数系列を描く事です。 2系列くらいならなんとかなりますが、系列が増えていくと複数特性値を一括可視化する手法が仇となり、一見して判読するのが難しくなります。3,4系列だとこのような感じです。 系列数が多い場合は、素直に別グラフにした方がスマートかも知れません(エクセルなどでは面倒ですが)。上図の4系列例を別グラフ化したものが下記です。 各グ…

  • レーダーチャート(2)ー 並び順

    今回はレーダーチャートの並び順について考えます。レーダーチャートの並び方を変えると印象がかなり変わります。 レーダーチャートの項目並び順 レーダーチャートの項目については並び順で印象は大きく変わります。下記をモチーフに考えてみます。 まずは、各項目ごとの平均値についての降順で並び変えてみます。 各項目ごとのMedianについて降順に並び変えると下記です。今回の例だと飛び値がないので大きな変化はないです。 各項目ごとのバラツキ(標準偏差)で並べ変えるという手もあります。下記は0時方向から時計回りに昇順に並べています。0時から4時方向くらいまでは変化が乏しいですが、後半に行くに従って特徴的な系列の…

  • レーダーチャート

    今回は、レーダーチャートについて述べます。多次元データの比較に用いられますが、全く異なるデータを0~1や0~100%に規格化して比較することが多いです。 レーダーチャートの基本 各項目の数量を中心点から多角形の頂点までの距離で表し、各頂点を結ぶと項目毎の数量の大小がひと目で比較できるグラフです。各項目は放射状に配置されます。 レーダーチャートは複数項目の特性をもつ対象の性能などを比較するために用います。例えば、他社製品とのベンチマークとか、キャラクターのステータス比較とか、 折れ線の内部を塗りつぶしたものは、その形状から「コウモリの翼」とよばれ、クモの巣グラフとも呼ばれるようです。フローレンス…

  • ステップワイズ法におけるAIC/BIC/Mallows's CPの比較

    重回帰分析の変数選択をステップワイズ法で行った場合、変数選択の基準で結果が変わります。いくつか比較してみます。 変数選択基準の比較 重回帰分析のステップワイズ法などで用いられる変数選択の基準で、AIC/BIC/Mallows's CPを比較します。 下記のような応答変数について、入力変数を[math] \displaystyle 0 < x_i \le 1 [/math]の範囲の一様乱数で変化させ、次式で定義される応答に標準偏差0.8の正規乱数を加えたデータセットを[math] \displaystyle n=1000 [/math]で用意、各データセット毎にいくつの変数が選ばれるかカウントし…

  • ステップワイズ法

    中心複合計画(Central Composite Design, CCD)やBox-Behnken計画(Box-Behnken Design, BBD) などで作成した計画は回帰分析により解析を行います。計画に用いた変数のうち応答に影響を与える変数を逐次求めるステップワイズ法を説明します。 回帰分析における変数選択法 重回帰分析において変数選択を行う古典的な方法としては下記の三つがあります。 (1) 強制投入法(force entry) (2) 総当たり法(all possible subset) (3) ステップワイズ法(step wise) 強制投入法は説明変数の候補を強制的に全て使用しま…

  • 中心複合計画とBox-Behnken計画の比較

    中心複合計画(Central Composite Design, CCD)とBox-Behnken計画(Box-Behnken Design, BBD) の比較をFDS/VDG plotを用いて行ってみます。 中心複合計画とBox-Behnken計画 中心複合計画では実験領域の頂点に置く実験点に加えて、星点(star point)と呼ばれる実験点と中心点により構成されます。star pointは立方体上の実験領域からははみ出した実験点になります。 Box-Behnken計画の場合は実験領域の頂点ではなく辺の中心をとっています。Box-Behnken計画は全ての変数のコーナーをとらないので、中心…

  • Box-Behnken計画

    応答曲面のためのBox-Behnken(ボックスーベーンケン)計画を紹介します。中心複合計画のような2次以上のモデルのための計画ですが、効率的なサンプリングを行う側面があります。 Box-Behnken計画 Box-Behnken計画(Box Behnken, BBD)は1960年にGeorge E. P. BoxとDonald Behnkenに考案されました[1]。Box-Behnken計画は2次以上のモデルを考える応答曲面法を想定しています。 良く比較されるのが中心複合計画(Central Composite Design, CCD)ですが、両者を3因子の実験計画で図示し比較したものが下記…

  • 内挿と外挿

    内挿(interpolation)と外挿(extrapolation)について書きます。エンジニアをやっていると製品性能を推定する場面に出くわすことが多いです。この場合行っている事は、状況証拠を入力変数とし、自身の経験から構築したモデル式にこれを入力することによって予測することです。経験から構築したモデルではなく理論的な解析式だという場合もあると思います。その場合でも理論式を導出する場合に何かしら仮定を置いていたりして、実際は多かれ少なかれ想定外の因子があると思います。そういう意味ではどこまで行っても経験式、或いは経験的なモデル式なのだと思います。 内挿と外挿 内挿はデータ点より内側にある点の…

  • 最適計画 - 各最適基準による計画の比較

    応答曲面のための実験計画としてD最適などに代表される最適基準に基づいた最適計画を紹介しています。今回は、愚直に得られた実験計画を眺めて(比較して)みます。 各最適基準の比較 一例としてモデルは2次項、交互作用ありで、2変数5水準11試行のD,A,I,G最適計画を比較してみます。2変数で行x列の表形式で表してみます。行、列がそれぞれの変数の水準で表中の数字が実験点数です。 以下に述べる計画について、それぞれ最適基準の計算結果は下記です。 D最適計画 D最適の場合、5水準(-1,-0.5,0,0.5,1)の実験にしても(-1,0,1)から計画点を選びます。9点あると計画領域を一様にサンプリングでき…

  • 最適計画 - Variance Dispersion Graph(VDG)及びFraction of Design Space(FDS) plot

    応答曲面のための実験計画としてD最適などに代表される最適基準に基づいた最適計画を紹介しましたが、得られた実験計画を評価する可視化手法があります。Variance dispersion graph(VDG)やFraction of Design Space plot(FDS)などです。 対象モデル 多項式近似する場合の共通モデルですが、一応セクション毎にメモ代わりに記載しておきます。 以下データ数を[math] \displaystyle n [/math]、近似パラメータの数を[math] \displaystyle k [/math]とします。 [math] \displaystyle y …

  • 応答曲面法と最適計画

    応答曲面法のためのサンプリング実験計画として中心複合計画があります。中心複合計画では実験計画範囲のみから実験点が決まりますが、実験計画範囲(計画点)とモデル式から最適基準を設けて、計算機支援で最適な実験計画を組む最適計画について述べます。D最適が有名で、A、I、G最適などがあります。 モデル式 多項式近似のパラメータは最小二乗法で求めることができます。モデルは下記で、以下データの数を[math] \displaystyle n [/math]、近似パラメータの数を[math] \displaystyle k [/math]とします。 [math] \displaystyle y ={\beta…

  • 中心複合計画 - ツール

    中心複合計画を作るツールを作成してみました。紹介します。 中心複合計画 中心複合計画は2次まで考慮した応答曲面法のための計画です。重回帰の予測精度が偏らないように、調整した実験計画が中心複合計画です。 メニューバー"DOE"から"Make Quadratic design file"をクリックすると下記のウィンドウが現れます。 変数範囲を入力して、[make CCD]を押します。 実行ファイルのフォルダに、CCD_日付_時刻.csvが出来ます。これを開くと下記のようになります。 X*カラムが変数、Repeatカラムは繰り返し数でこの場合はゼロです。 各種設定について 中心複合計画のアルファ設定…

  • 中心複合計画で乱数実験(4)- 交互作用について繰り返し数の影響

    中心複合計画で繰り返し数を増やすと、どのように有意差が出やすくなるのかテストする続きです。 今回の対象は、応答が一次項と二乗項、さらに自身以外の変数との積和といった曲面性があるデータに、正規乱数を加えています。中心複合計画の中心点は0、軸点以外の定義域は-1,1です。ノイズは標準偏差1.0の正規分布乱数を加えています。書き下した式を下記に示します。 [math] \displaystyle y_{i} = x_{i} + {x_{i}}^2 + x_{i} x_{j} + N(0,1) [/math] それぞれ1000回試行を行い、下記では一つ目の説明変数[math] \displaystyl…

  • 中心複合計画で乱数実験(3)- 繰り返し数の影響, 曲面性がある場合

    中心複合計画で繰り返し数を増やすと、どのように有意差が出やすくなるのかテストする続きです。 今回の対象は、応答が説明変数の二乗和で曲面性があるデータに、正規乱数を加えています。中心複合計画の中心点は0、軸点以外の定義域は-1,1です。ノイズは標準偏差1.0の正規分布乱数を加えています。 それぞれ1000回試行を行い、下記ではP値の正規確率プロット示しています。 中心点の繰り返し数を増やした場合 まずはモデルにない一次項の様子です、P値が大きい方が正解です。中心点の繰り返し数を2(赤)、3(青)、4(緑)、5(紫)、9(橙)と増やしています。中心点を増やしても変動しません。一次効果のみの場合の場…

  • 中心複合計画で乱数実験(2)ー 繰り返し数の影響, 曲面性がない場合

    中心複合計画で繰り返し数を増やすと、どのように有意差が出やすくなるのかテストしてみます。 対象は、応答が説明変数の線形和で交互作用や曲面性がないデータで、正規乱数を足しています。中心複合計画の中心点は0、軸点以外の定義域は-1,1です。応答Yは説明変数の線形結合で標準偏差1.0の正規分布乱数を加えています。 それぞれ1000回試行を行い、下記ではP値の正規確率プロット示しています。 中心点の繰り返し数を増やした場合 まずは一次項の様子です。中心点の繰り返し数を2(赤)、3(青)、4(緑)、5(紫)、9(橙)と増やしています。中心点を増やす方が実験精度はあがります。ただし影響は小さいです。そもそ…

  • 中心複合計画で乱数実験(1)ー 因子数の影響, 曲面性がない場合

    中心複合計画で変数の数を増やすとどのように有意差が出やすくなるのかテストしてみます。 中心複合計画はロバストな手法ですが、要因数を増やした場合、有意差が出やすくなります。今回は、応答は説明変数の線形和で交互作用や曲面性がないデータに対し、正規乱数を足してロバスト性を確認してみます。中心複合計画の中心点は0、軸点以外の定義域は-1,1です。応答Yは説明変数の線形結合で正規分布乱数を加えています。 要因数を増やした場合の一次項の様子 まずは一次項の様子です。要因数=kを増やすと実験数は下記のように増加するので、一次項の有意差は出やすくなります。 中心複合計画で中心点の繰り返し数を3、要因数を2~4…

  • 中心複合計画と応答曲面法

    中心複合計画は応答曲面法のための実験です。今回は実験結果から応答曲面法のパラメータ計算を追ってみます。 応答曲面法 応答曲面(Response Surface)とは、予測変数(Predictor variables)から応答(Response)yを関係近似したものです。[math] \displaystyle \varepsilon [/math]を誤差とすると下記のように表せます。 [math] \displaystyle y = f( x_1 \cdots x_n ) + \varepsilon [/math] 応答曲面法において関数の形に制限はないのですが、取り扱いが簡単な多項式近似が用…

  • 中心複合計画(Central Composite Design, CCD)

    実験計画法は、どの因子が重要か選別するスクリーニング実験と、選別した因子に対して曲面性も考慮して行う最適化実験の2つに大別することが出来ます。前者は完全実施計画や直交表などが当てはまり、後者の代表的な手法が中心複合計画と呼ばれるものです。 中心複合計画 中心複合計画は応答曲面法のための計画です。応答曲面法というと仰々しいですが、線形(1次)ではなく2次の項まで考慮した重回帰分析です。重回帰の予測精度が偏らないように、調整した実験計画が中心複合計画です。 まず2因子2水準の完全実施計画 (full factorial design)を考えます。 中心複合計画では、曲面モデルを作成するため下図で緑…

  • Distance correlation

    2変数間の関係性の強さを測る指標に相関係数があります。通常の相関係数の他、順位統計に基づいたPeasonやKendallの順位相関係数もあります。残念ながら、これらは単調増加、単調減少の挙動しか捉えることが出来ません。今回は非線形な相関関係を捉えられるdistance correlationについて書きます。 Distance correlation 一般的に相関係数というとピアソンの積率相関係数を指しますが、この相関係数は線形な依存関係に感度があります。非線形な依存関係である場合には、容易に相関係数=ゼロになってしまいます。 Distance correlationはSzékelyらによって…

  • 自己相関関数と周期性解析(2)

    こちらでは自己相関関数について簡単な紹介を書きました。実装してみたのと、スピアマンやケンドールの順位相関係数でも自己相関関数(コレオグラム)ライクな表示をしてみています。 順位相関係数で自己相関 自己相関関数とはこちらに示すように、時系列データに対しLag#分ずらして相関係数を計算するものです。周期性などがわかったりします。 例えば下記のようなデータの自己相関関数をプロットすると 周期4と8の成分がある傾向がわかります。点線は95%の棄却限界です。 通常、相関係数というとピアソンの積率相関係数を指しますが、スピアマンやケンドールの順位相関係数というものもあります。順位に基づいた統計量なので、外…

  • 実験計画法(9)-直交表(3水準系)

    これまでラテン方格やグレコ・ラテン方格について書きましたが、さらに一般化すると直交表実験に行き着きます。今回は水準数3の直交表について述べます。 3水準直交表 実験の因子(パラメータ)のどの2つをとっても、その水準のすべての組み合わせが同数回現れるように作成したものが直交表でした。 [math] \displaystyle n=2 [/math]のラテン方格は下記の通りで、 最小の2水準直交表[math] \displaystyle L4 [/math]と同一です。 実は3水準最小の直交表[math] \displaystyle L9 [/math]は、[math] \displaystyle…

  • 実験計画法(8)-直交表(2水準系)

    これまでラテン方格やグレコ・ラテン方格について書きましたが、さらに一般化すると直交表実験に行き着きます。 直交表の概要 直交表(ちょっこうひょう)とは、実験の因子(パラメータ)のどの2つをとっても、その水準のすべての組み合わせが同数回現れるように出来ています。これを「直交している」と呼びます。 一般的な多元配置の実験(パラメータが沢山ある総当たり実験)では、因子の水準数の積の回数だけ実験数が必要になります。因子数が多くなると実験回数は膨大な数になります。ところが交互作用を考えない(正確には考慮する交互作用が少ない)場合、直交表を用いることによって実験回数を削減することができます。 直交表は沢山…

  • Quadrant chart

    2次元の散布図を4色に色分けするQuadrant chart(クアドラントチャート、4象限グラフ)を紹介します。個人的にはあまり使う機会はないですが、散布図を用いて砕けた説明をする場合にはわかりやすさという点で一定の効果があるのではないかと思います。 クアドラントチャート 2次元散布図を4つの領域に分けます。例えばこのような感じです。 この例では左上(黄色領域)に外れ値を持っていて、説明(プレゼン)する場合にちょっとだけ便利です。 クアドラントチャートは、ある意味非常に原始的なクラスタリングのような働きを持っていると思います。そしてクラスタリングの知識が全くない聴衆にもわかりやすく伝えられるこ…

  • 実験計画法(7)-Aligned Rank Transform

    直交表などの実験計画法を解析する場合、分散分析(ANOVA)が基礎となります。しかしANOVAは正規分布を仮定しており、対象データが正規分布かどうかより著しく逸脱した外れ値の影響を受けやすいです。バランス型の実験計画を前提として、変数変換によりノンパラメトリックなANOVAを実行できるAlighned Rank Transform(ART)[1][2][3]を紹介します。 Aligned Rank Transform(ART) 一元配置実験や二元配置実験に適用できるノンパラメトリックな検定というと、Kruskal-Wallis検定やFriedman検定があります。しかし、これらは主効果しか扱え…

  • 実験計画法(6)-グレコ・ラテン方格

    実験計画法のうち、ラテン方格からさらに発展したグレコ・ラテン方格法について述べます。 グレコ・ラテン方格法 ラテン方格とはn行xn列の表にn個の異なる記号が各行各列に1度だけ現れる表です。このラテン方格の各記号に実験水準を割り当てる実験計画法がラテン方格法です。 表中の記号を2つに増やし、どの組み合わせも他と異なっている場合にグレコ・ラテン方格(またはオイラー方陣)と呼びます。つまり2種類のラテン方格の重ね合わせです。 グレコ・ラテンの名は数学者オイラーが、2つの記号にローマ字(ラテン文字, Latin)とギリシャ文字(Graeco)を用いたことに由来するそうです。 ラテン方格の場合と同様に、…

  • 実験計画法(5)-ラテン方格

    実験計画法のうち、一元配置/二元配置からもう少し発展したラテン方格について述べます。 ラテン方格法 ラテン方格とはn行xn列の表にn個の異なる記号が各行各列に1度だけ現れる表です。ラテン方陣とも呼びます。このラテン方格の各記号に実験水準を割り当てる実験計画法をラテン方格法と呼びます。 ラテン方格の名は数学者オイラーによっていて、表中の記号としてローマ字(ラテン文字)を用いたことに由来するそうです。 また2次元のラテン方格をn次元に拡張した物をラテン超方格(Latin hypercube)呼び、これに基づく実験計画法をラテン超方格法(Latin Hypercube Sampling; LHS)と…

  • 実験計画法(4)-乱塊法

    実験計画法の一つのアプローチである乱塊法について説明します。 Fisherの3原則 実験計画法の始祖R.A.FisherにFisherの3原則というものがあります。 反復(replication) 無作為化(randomization) 局所管理(local control) 最後の局所管理が今回の乱塊法と密接にかかわります。(影響を与えるが最適水準を決めることに意味のない)ブロック因子について、実験計画に取り込むことで局所管理を行います。 ブロック因子の値が不定のまま実験を行うと、誤差分散が増えることになります。予め影響を与えるブロック因子が分かっている場合は、実験計画の中に取り込むことで解…

arrow_drop_down

ブログリーダー」を活用して、OceanOneさんをフォローしませんか?

ハンドル名
OceanOneさん
ブログタイトル
Engineering Skills
フォロー
Engineering Skills

にほんブログ村 カテゴリー一覧

商用