chevron_left

メインカテゴリーを選択しなおす

cancel
研究型データサイエンティストのブログ https://wakame-msds.com/

海外留学から学ぶデータサイエンスの経験について発信しています. 化学系企業R&D所属の社会人大学院生.MSDSを取得するために豪州へ留学. データサイエンスで留学を考えている人達に役立つブログの運営を目指しています.

ワカメ@🇦🇺研究型データサイエンティスト
フォロー
住所
オーストラリア
出身
未設定
ブログ村参加

2021/01/09

  • pandas: 相関行列の作成と解釈サポートのための可視化

    2023-04-09 pandasはデータサイエンス、データアナリシス、機械学習の分野で広く利用されているpythonのオープンソースパッケージです。相関行列は、大きなデータセットの要約、データの特徴・パターン特定を目的に扱います。この記事は pandasを使った相関係数行列の作成方法をまとめます。

  • pandas: 相関行列の作成と解釈サポートのための可視化

    2023-03-29 pandasはデータサイエンス、データアナリシス、機械学習の分野で広く利用されているpythonのオープンソースパッケージです。相関行列は、大きなデータセットの要約、データの特徴・パターン特定を目的に扱います。この記事は pandasを使った相関係数行列の作成方法をまとめます。

  • 確率変数と確率分布:事象の発生確率を示す

    2023-03-14 確率変数は、ランダムに抽出したサンプルを扱う実験/調査から得る結果です。確率変数は実数で、ランダムに得られます。確率変数には離散型確率変数と連続型確率変数の2種類があります。確率変数から得られる確率を縦軸にヒストグラムを描くと、確率の分布情報が得られます。これを確率分布と呼びます。

  • 大規模データの分析を強力にサポート: Apache Sparkの概要

    2023-01-04 Apache Sparkは大規模なデータを扱うためのオープンソースの統合分析エンジンです。 Apache Spark 3.0からはGPUを扱った並列分散処理、3.2ではSpark上でPandas APIの利用が可能となりました。この記事では大規模データを処理するSparkの概要についてまとめます。

  • DBSCAN: 外れ値/ノイズを発見するための密度ベースクラスタリング

    2022-09-04 クラスタリングは、類似性が高いデータをグループ化する教師なし学習の一種です。なかでも、DBSCANは、データセットの中から密集しているデータ群を見つけ、クラスタリングする手法です。この記事は、密度ベースクラスタリングの手法のひとつ「DBSCAN」をまとめます。

  • 一般化線形モデル (GLM):一般線形モデルの拡張モデル

    2022-08-25 一般化線形モデル: GLMの学習は、確率分布を統計モデルにどのように組み込むか考え始める機会に繋がります。一般化線形モデル GLMは、線形回帰モデルをより柔軟に一般化した統計モデルです。誤差構造を指数型分布族から選択します。 この記事は一般化線形モデルの特徴についてまとめます。

  • ブートストラップ法: リサンプリングを利用して母集団の特徴を推定

    2022-08-01 ブートストラップ法は、データセットから無作為に何度もリサンプリングすることで母集団の特徴の推定を試みる統計手法です。複雑な計算を簡単なシミュレーションに置き換えたブートストラップ法は、コンピュータの発展に伴い、パワフルで扱いやすい手法となりました。この記事はブートストラップ法についてまとめます。

  • p値ハッキング: 統計的有意は本当にシルバーブレットか?

    2022-07-20 p値ハッキング: p-hackingは、実際は統計的に差がないデータに差があると示す誤ったデータ分析の行為です。意識的、あるいは、無意識的な行為に関わらず、知らないうちにp値ハッキングに手を染めているかもしれないと思うと怖く感じませんか。この記事はp値ハッキングについてまとめます

  • 統計: 記述統計と推測統計の違いは何か?

    2022-07-14 データから新たなインサイトを獲得するため、あるいは重要な意思決定を行うために統計はサイエンス、心理学、マーケティング、医学、など幅広い分野で利用されています。統計はデータの中から注目すべきポイントやパターンの発見を手助けします。この記事は 「記述統計と推測統計」 についてまとめます。

  • クラスタリング:k-meansクラスタリング

    2022-07-05 クラスタリングは、データの特徴量から似ているユーザー・製品・サンプルなどをグループ化する方法です。様々な手法が存在するクラスタリング手法の中でも、k-meansクラスタリングは扱いが簡単な代表モデルのひとつです。この記事はk-meansクラスタリングについてまとめます。

  • plotly: chart-studioでwebに作成したグラフを埋め込む

    2022-06-28 インタラクティブなグラフを作成を可能とするオープンソース・ライブラリー: plotlyは、作成したグラフをWebページに埋め込むこともできます。この記事は「plotlyで作成したグラフをwebに埋め込む方法」をまとめます。

  • plotly: plotlyの概要。Pythonでインタラクティブな図を描く

    2022-06-25 plotlyは、JavaScript, D3.js, HTML, CSSをベースに開発されたインタラクティブなグラフの作成を可能とするオープンソース・ライブラリです。plotlyは, Python, R, Julisなどで利用可能です。この記事はplotlyの概要についてまとめます。

  • オブジェクト同士の類似度を測る方法。各種計測方法の利点と欠点。

    2022-06-16 類似度は、ふたつのオブジェクトがどれくらい似ているかを示します。オブジェクト同士の類似度を計測する方法は、多くのデータマイニング、機械学習の手法で利用されます。この記事では、機械学習で扱う主要な類似度計測手法の特徴、欠点、利用例をまとめます。

  • pandas: データ分析に役立つ操作まとめ

    2022-06-08 pandasはデータサイエンス、データアナリシス、機械学習の分野で広く利用されているpythonのオープンソースパッケージです。 ある程度操作を覚えてしまうと非常に便利、柔軟、パワフルなツールです。この記事は「データ分析の際に頻繁に利用するpandasの基本操作」をまとめます。

  • アトリビュートとは何か? 定義・種類・例のまとめ

    2022-06-04 データベース設計、データ分析において登場するアトリビュート。アトリビュートは、データ・オブジェクトのキャラクターや特徴を表すデータフィールドです。 例えば、病院の各患者が持つ「patient_id」はアトリビュートです。この記事は「アトリビュートの定義・種類・例」についてまとめます。

ブログリーダー」を活用して、ワカメ@🇦🇺研究型データサイエンティストさんをフォローしませんか?

ハンドル名
ワカメ@🇦🇺研究型データサイエンティストさん
ブログタイトル
研究型データサイエンティストのブログ
フォロー
研究型データサイエンティストのブログ

にほんブログ村 カテゴリー一覧

商用