chevron_left

メインカテゴリーを選択しなおす

cancel
研究型データサイエンティストのブログ https://wakame-msds.com/

海外留学から学ぶデータサイエンスの経験について発信しています. 化学系企業R&D所属の社会人大学院生.MSDSを取得するために豪州へ留学. データサイエンスで留学を考えている人達に役立つブログの運営を目指しています.

ワカメ@🇦🇺研究型データサイエンティスト
フォロー
住所
オーストラリア
出身
未設定
ブログ村参加

2021/01/09

arrow_drop_down
  • pandas: 相関行列の作成と解釈サポートのための可視化

    2023-04-09 pandasはデータサイエンス、データアナリシス、機械学習の分野で広く利用されているpythonのオープンソースパッケージです。相関行列は、大きなデータセットの要約、データの特徴・パターン特定を目的に扱います。この記事は pandasを使った相関係数行列の作成方法をまとめます。

  • pandas: 相関行列の作成と解釈サポートのための可視化

    2023-03-29 pandasはデータサイエンス、データアナリシス、機械学習の分野で広く利用されているpythonのオープンソースパッケージです。相関行列は、大きなデータセットの要約、データの特徴・パターン特定を目的に扱います。この記事は pandasを使った相関係数行列の作成方法をまとめます。

  • 確率変数と確率分布:事象の発生確率を示す

    2023-03-14 確率変数は、ランダムに抽出したサンプルを扱う実験/調査から得る結果です。確率変数は実数で、ランダムに得られます。確率変数には離散型確率変数と連続型確率変数の2種類があります。確率変数から得られる確率を縦軸にヒストグラムを描くと、確率の分布情報が得られます。これを確率分布と呼びます。

  • 大規模データの分析を強力にサポート: Apache Sparkの概要

    2023-01-04 Apache Sparkは大規模なデータを扱うためのオープンソースの統合分析エンジンです。 Apache Spark 3.0からはGPUを扱った並列分散処理、3.2ではSpark上でPandas APIの利用が可能となりました。この記事では大規模データを処理するSparkの概要についてまとめます。

  • DBSCAN: 外れ値/ノイズを発見するための密度ベースクラスタリング

    2022-09-04 クラスタリングは、類似性が高いデータをグループ化する教師なし学習の一種です。なかでも、DBSCANは、データセットの中から密集しているデータ群を見つけ、クラスタリングする手法です。この記事は、密度ベースクラスタリングの手法のひとつ「DBSCAN」をまとめます。

  • 一般化線形モデル (GLM):一般線形モデルの拡張モデル

    2022-08-25 一般化線形モデル: GLMの学習は、確率分布を統計モデルにどのように組み込むか考え始める機会に繋がります。一般化線形モデル GLMは、線形回帰モデルをより柔軟に一般化した統計モデルです。誤差構造を指数型分布族から選択します。 この記事は一般化線形モデルの特徴についてまとめます。

  • ブートストラップ法: リサンプリングを利用して母集団の特徴を推定

    2022-08-01 ブートストラップ法は、データセットから無作為に何度もリサンプリングすることで母集団の特徴の推定を試みる統計手法です。複雑な計算を簡単なシミュレーションに置き換えたブートストラップ法は、コンピュータの発展に伴い、パワフルで扱いやすい手法となりました。この記事はブートストラップ法についてまとめます。

  • p値ハッキング: 統計的有意は本当にシルバーブレットか?

    2022-07-20 p値ハッキング: p-hackingは、実際は統計的に差がないデータに差があると示す誤ったデータ分析の行為です。意識的、あるいは、無意識的な行為に関わらず、知らないうちにp値ハッキングに手を染めているかもしれないと思うと怖く感じませんか。この記事はp値ハッキングについてまとめます

  • 統計: 記述統計と推測統計の違いは何か?

    2022-07-14 データから新たなインサイトを獲得するため、あるいは重要な意思決定を行うために統計はサイエンス、心理学、マーケティング、医学、など幅広い分野で利用されています。統計はデータの中から注目すべきポイントやパターンの発見を手助けします。この記事は 「記述統計と推測統計」 についてまとめます。

  • クラスタリング:k-meansクラスタリング

    2022-07-05 クラスタリングは、データの特徴量から似ているユーザー・製品・サンプルなどをグループ化する方法です。様々な手法が存在するクラスタリング手法の中でも、k-meansクラスタリングは扱いが簡単な代表モデルのひとつです。この記事はk-meansクラスタリングについてまとめます。

  • plotly: chart-studioでwebに作成したグラフを埋め込む

    2022-06-28 インタラクティブなグラフを作成を可能とするオープンソース・ライブラリー: plotlyは、作成したグラフをWebページに埋め込むこともできます。この記事は「plotlyで作成したグラフをwebに埋め込む方法」をまとめます。

  • plotly: plotlyの概要。Pythonでインタラクティブな図を描く

    2022-06-25 plotlyは、JavaScript, D3.js, HTML, CSSをベースに開発されたインタラクティブなグラフの作成を可能とするオープンソース・ライブラリです。plotlyは, Python, R, Julisなどで利用可能です。この記事はplotlyの概要についてまとめます。

  • オブジェクト同士の類似度を測る方法。各種計測方法の利点と欠点。

    2022-06-16 類似度は、ふたつのオブジェクトがどれくらい似ているかを示します。オブジェクト同士の類似度を計測する方法は、多くのデータマイニング、機械学習の手法で利用されます。この記事では、機械学習で扱う主要な類似度計測手法の特徴、欠点、利用例をまとめます。

  • pandas: データ分析に役立つ操作まとめ

    2022-06-08 pandasはデータサイエンス、データアナリシス、機械学習の分野で広く利用されているpythonのオープンソースパッケージです。 ある程度操作を覚えてしまうと非常に便利、柔軟、パワフルなツールです。この記事は「データ分析の際に頻繁に利用するpandasの基本操作」をまとめます。

  • アトリビュートとは何か? 定義・種類・例のまとめ

    2022-06-04 データベース設計、データ分析において登場するアトリビュート。アトリビュートは、データ・オブジェクトのキャラクターや特徴を表すデータフィールドです。 例えば、病院の各患者が持つ「patient_id」はアトリビュートです。この記事は「アトリビュートの定義・種類・例」についてまとめます。

  • データ前処理:正規化によるデータ変換

    2022-04-27 正規化(Normalization) は、データトランスフォーメーションに関する手法です。正規化は、例えば、データセットの特徴量を、0-1のような小さい範囲のレンジに落とし込みます。 正規化は距離を計測するアルゴリズムの効率性と予測精度を向上するために扱います。この記事は正規化についてまとめます。

  • Juliaと遊ぶ線形代数(7) グラム・シュミット・アルゴリズム

    2022-04-01 グラム・シュミット・アルゴリズムは、有限の線形独立なベクトルを取ったとき、これらのベクトルが張る部分空間と同じ部分空間を張るための正規直交系を作り出します。 この記事はグラム・シュミット・アルゴリズムについてまとめます。

  • クラスタリング:類似度が高いオブジェクトのグループ化

    2022-03-22 クラスタリング(またはクラスター分析)は、集合に含まれるオブジェクトの類似度に基づき、それぞれのオブジェクトをグループ分けする手法です。 クラスタリングは、機械学習、パターン認識、画像分析、バイオインフォマティクス、 など、様々な場面で利用します。この記事はクラスタリングの基本についてまとめます。

  • 留学生活の備忘録:32年夏季オリンピック開催地ブリスベンってどんな街

    2022-03-10 日本と異なる文化・価値観を学びたい。そんな気持ちを原動力に海外留学を目指し、ご縁あって選択した学びの地はオーストラリアのブリスベン。 留学中の21年7月には、ブリスベンは32年のオリンピックホストシティに決定しました。この記事はブリスベンの生活基本情報をまとめます。

  • 線形代数学の基本定理:4つの基本部分空間

    2022-02-21 4つの基本部分空間は、1993年にGilbert Strang氏の論文: “The fundamental theorem of linear algebra” で紹介された線形代数学の理論です。この記事は、4つの基本部分空間をまとめます。

  • 英文履歴書(レジュメ、CV)の改善〜動作動詞を上手く使う

    2022-01-23 英語でレジュメを書く際、同じ単語を何度も繰り返して使うことは避けるよう教わります。 また、自分自身の経験を魅力的に説明するため、力強い動作動詞を効果的に使う必要もあります。 この記事では、「エンジニア・研究者向けイベント」に参加した経験をもとに、 「英文履歴書で使える動作動詞」 をまとめます。

  • 知ると面白い! データベースの進化の歴史

    2022-01-08 世はまさにビッグデータビジネスの時代。 データサイエンスの注目も高まっていますが、「増加を続けるデータの処理」を背景に新しいDBの開発・導入も進んでいます。では、ビッグデータ時代と呼ばれる現在に至るまで、どのようにDB関連の技術は進化してきたのでしょう?この記事ではデータベースの歴史をまとめます。

  • 線形代数の基礎: 線形独立と線形従属の違い

    2022-01-03 線形結合がある条件を満たすと、線形結合に扱われるベクトルは、線形独立、または、線形従属と呼ばれます。線形独立・線形従属は、他のベクトルと任意のスカラーで対象とするベクトルを表現できるか否かを示します。この記事は 「線形独立と線形従属」 についてまとめます。

  • 線形代数の基礎: ベクトル空間とは何か?

    2022-01-02 ベクトル空間。高校・大学で線形代数を勉強したことがあっても、概念が抽象的で何だったか忘れていませんか。この記事は「これだけは抑えておきたいベクトル空間の特徴」をまとめます。

  • データサイエンスコース在籍中にオススメされた&使用した書籍

    2021-12-29 「データサイエンス 本」でGoogle検索すると、山のようにヒットする参考書たち。タイトル、カバーするトピック、著者、図・表のデザイン、文章の量、etc...。皆さんは何に重きを置いて本を選択していますか。この記事では「データサイエンスコースでオススメ、実際に使用した書籍の一部」を紹介します。

  • 整数計画法: pythonとgurobiを使って建設計画を最適化

    2021-12-24 オペレーションズ・リサーチの分野のひとつである「数理計画法」は、数理計画問題(最適化問題)を解くための方法です。数理計画法の様々なアプローチのうちのひとつに「整数計画法」があります。 この記事では、整数計画法を使ってある工場の建設計画問題を解いてみます。

  • 海外の大学院で学ぶデータサイエンス(4)

    2021-11-29 この記事では、クイーンズランド大学(UQ)の「データサイエンス・マスターコースが提供する講座から学べる知識・スキル」を紹介します。今回は管理人が2年目のSemester2で受講した3つの講義をまとめます。「年度」「コースコーディネーター」の変更に伴い、講座の内容も変わることがあります。

  • 線形計画法: pythonとgurobiを使って生産計画を最適化

    オペレーションズ・リサーチの分野のひとつ「数理計画法」は、数理計画問題(最適化問題)を解くための方法です。 数理計画法は、制約条件を満たし、目的関数を最小、あるいは、最大にする最適解の発見する方法です。数理計画法には様々なアプローチがあり、そのなかのひとつには線形計画法があります。

  • matplotlib.pyplot: 線グラフの特定領域を塗りつぶす

    化学反応の経時変化を示すグラフがあります。pythonで指定の範囲を塗りつぶしたいのですが、どうすれば良いでしょう?matplotlibの pyplot.fill_between() を使えば、指定の範囲を塗りつぶせます。

  • 数理計画法: PythonとGurobiを使って数理計画問題を解く

    オペレーションズ・リサーチの重要な分野である数理計画法は、数理計画問題(最適化問題)を解くための方法であり、データサイエンスにとっても大事なトピックです。 数理計画法は、制約条件を満たし、目的関数を最小、あるいは、最大にする最適解の発見を目的とし、金融、教育、石油、生産、物流、林業、など幅広い分野で利用されています。

  • 変換と行列の関係:線型変換とアフィン変換の関係

    線型代数において、入力ベクトルと出力ベクトルの変換を考えます。線型変換は(1)直線を維持したまま、(2)原点を固定して変換します。線型変換とアフィン変換の間には、「全ての線型変換はアフィン変換であるが、アフィン変換の一部は線型変換でない」関係があります。アフィン変換は反転、拡大・縮小、回転、剪断、平行移動に利用します。

  • 機械学習とテイラー展開。機械学習で使う数学的概念

    テイラー展開は、無限級数を利用することで、任意の関数のある点近傍の値を近似し、周辺情報を獲得することに役立ちます。 高校・大学で学ぶテイラー展開は、機械学習でも利用されています。機械学習でテイラー展開を利用すると何が嬉しいのでしょうか?この記事は「 テイラー展開の性質 」についてまとめます。

  • 意思決定をサポート。オペレーションズ・リサーチと数理最適化

    「オペレーションズ・リサーチ」は、与えられた制約条件の下、最適なデザインや運用システムを見つけるための意思決定に関わる科学的アプローチです。ゆえに、オペレーションズ・リサーチは、「経営科学(Management Science)」とも呼ばれます。

  • これだけは知っておきたいETLとELTの違い

    2021-07-12 ETLとELTは、データソースからデータを抽出してから分析用データとして利用するまでのデータ管理プロセスを示します。 データ分析を行う前に、多くのケースでデータに加工処理を施します。この記事はETLとELTの特徴をまとめます。

  • Gurobi Optimizer(アカデミック・ライセンス)のインストール方法

    2021-07-05 Groubi Optimizer は、線形計画(LP)、二次計画(QP)、混合整数計画(MIP)、などの問題を最速で解くための強力なソルバーエンジンです。この記事は「 Grobi Optimizer(アカデミック・ライセンス)をインストールする方法 」をまとめています。

  • Juliaと遊ぶ線形代数(6) LU分解とガウス消去法

    2021-07-04 LU分解は正方行列を下三角行列と上三角行列の積に分解する方法です。 LU分解を利用すれば、連立一次方程式の計算をさらに効率化できます。 この記事はLU分解 についてまとめます。LU分解の時間計算量はO(n^3)、前進代入、後退代入の時間計算量はそれぞれO(n^2)です。

  • 海外で学ぶデータサイエンス。データサイエンス・マスターコースで学ぶ知識・スキル(3)

    2021-07-01 クイーンズランド大学(UQ)のデータサイエンス・マスターコースが提供する講座から学べる知識・スキルを紹介します。身の回りに限って言えば、若い世代を中心に、データサイエンスへ興味を持ち、自学自習に励む方が増えてきている気がします。大学のデータサイエンスコースが気になることもあるのではないでしょうか。

  • Juliaと遊ぶ線形代数(5) ガウス・ジョルダン消去法とガウス消去法の比較

    2021-06-30 ガウス消去法とガウス・ジョルダン消去法は機械的に連立方程式を解く手法です。試験では、私たちは連立方程式を手計算しています。しかし、コンピュータによる数値計算では、数百万以上におよぶ大規模な連立1次方程式を扱う場面が出てきます。この記事はガウス消去法」と「ガウス・ジョルダン消去法」をまとめます。

  • Juliaと遊ぶ線形代数(4) 線型方程式

    2021-06-29 ビッグデータのような大規模データを扱うために、線型代数に関する知識・スキルが必要になります。理系卒といえど、何のために、どのように、線型代数が利用されているか知らない人は多い気がします。この記事は備忘録として「線型方程式(or 線形方程式)」についてまとめます。

  • Juliaと遊ぶ線形代数(4) 線型方程式

    2021-06-29 ビッグデータのような大規模データを扱うために、線型代数に関する知識・スキルが必要になります。理系卒といえど、何のために、どのように、線型代数が利用されているか知らない人は多い気がします。この記事は備忘録として「線型方程式(or 線形方程式)」についてまとめます。

  • Juliaと遊ぶ線形代数(3) 行列の性質

    2021-06-19 この記事は「抑えておきたい行列の基本」と「Juliaを使った行列の扱い方」についてまとめます。「入力したベクトルを新たなベクトルに移すこと」を線形変換(linear transformation)、あるいは、線型写像と呼びます。線形変換は線形代数のメイントピックです。

  • 【証明】コーシー・シュワルツの不等式と三角不等式

    2021-06-17 コーシー・シュワルツの不等式、三角不等式。高校生のときに聞いたことがあるぞ…。でも何だったか思い出せない。この記事は 「コーシー・シュワルツの不等式」 と 「三角不等式」 についてまとめます。Juliaを使ってコーシー・シュワルツの不等式と三角不等式の成立を確認します。

  • Juliaと遊ぶ線形代数(2) ベクトルの基本操作

    2021-06-16 この記事では「ベクトルの基本」と「ベクトルに関するJuliaの操作」をまとめます。便利なライブラリ、パッケージのおかげで、データ解析は簡単に実行できる状況になってますが、「線形代数をもっと理解することで、得られる気づきがあるのではないか?」とも思えるようになりました。

  • pandasを使ってcsvファイルを読み込む【python】

    この記事では「Pandasを使ってcsvファイルを読み込む方法」を説明します。csvファイル(comma separated value file)は、カンマ( , )で区切られたシンプルなテキスト形式のファイルです。データの保存はcsvファイルを利用していることが多いです。

  • データサイエンティストは2タイプ?ディシジョンサイエンティストとモデリングサイエンティスト

    2021-02-27 マーケティング、経営、人工知能(AI)、医療、生産、物流、工学など、様々な分野でデータサイエンスの活用が期待さ...

  • 海外で学ぶデータサイエンス。データサイエンス・マスターコースで学ぶ知識・スキル(2)

    2021-02-22 大学のデータサイエンスコースではどんなことを学ぶの? 講座で学んだ知識・スキルが後々どんなことに役立つの? ワ...

  • 海外で学ぶデータサイエンス。データサイエンスコースで学ぶ知識・スキル(1)

    2021-02-15 大学のデータサイエンスコースではどんな内容を学ぶの? 講座で学んだ知識・スキルが後々どんなことに役立つの? ワ...

  • 【海外で学ぶデータサイエンス】気になるマスターコースの授業。現役大学院生のタイムテーブル

    2021-02-10 授業に関して、海外と日本の大学に違いはあるの? データサイエンスの修士課程(マスターコース)の授業って大変なの...

  • ビッグデータの定義/注目される理由を解説

    2021-02-07 ニュースや職場でたびたび耳にするビッグデータ。 ではビッグデータとはどんなデータでしょうか。データの数が多けれ...

  • 海外大学で学ぶデータサイエンス:クイーンズランド大学が提供するデータサイエンス・マスターコース

    2021-01-12 この記事ではクイーンズランド大学が提供するデータサイエンスのプログラム内容について紹介します。クイーンズランド大学(University of Queensland: UQ)は、世界ランクトップ50に位置付けられるオーストラリアの先端研究大学、かつ、教育大学です。

  • 費用はおさえて目標スコアを達成!IELTSのスコアアップに役立つ教材とサイトの紹介

    2021-01-09 この記事では、学習費用をおさえながら、留学に必要なIELTSのスコアアップに役立つ学習教材・サイト情報をまとめています。

  • 海外留学に必要な英語力証明書: IELTS受験前に知っておくべき大事なポイントを抜粋

    2021-01-06 データサイエンスを海外で学びたいなら、出願には英語力証明書が必要になります。この記事は留学に必要となるIELTSに関してまとめました。

  • 海外大学のデータサイエンスコースに合格!合格に必要な資格と勉強時間は?30代サラリーマンの受験体験記

    2020-12-30 この記事は、海外のデータサイエンスコースへの留学決意から合格通知を手にするまでの30代社会人の受験勉強体験をまとめました。語学力証明の試験にはIELTSを選択しました。

  • 海外で学ぶデータサイエンス:データサイエンスが学べる海外大学院の探し方

    2020-12-25この記事では、留学先をどうやって選ぼうか悩んでいる方に向け、管理人の経験をもとに、何を重視して大学を選んだか、どのようにデータサイエンスコースの情報収集をしたか、大学ごとでどのようにコース内容が異なるのか、出願時に必要な書類、何が最終的に留学先を選択する決め手になったか、をまとめました。

  • 増加するデータサイエンスコース:大学でデータサイエンスを学ぶ必要はあるのか?

    2020-12-23 昨今、各大学でデータサイエンスコースが新設されています。この記事は、管理人がデータサイエンスは大学で学ぶ必要があるという考えに至った理由をまとめました。

  • データサイエンスを学ぶには?これから勉強する方へのオススメ学習方法

    2020-12-20 この記事は、データサイエンスに必要な分野とオススメの学習方法についてまとめます。

  • データサイエンスは必要スキルか?今後のデータサイエンティストの需要を考える

    2020-12-13 この記事は、データサイエンスが注目されるている背景、今後のデータサイエンスのトレンドについて解説しています。

arrow_drop_down

ブログリーダー」を活用して、ワカメ@🇦🇺研究型データサイエンティストさんをフォローしませんか?

ハンドル名
ワカメ@🇦🇺研究型データサイエンティストさん
ブログタイトル
研究型データサイエンティストのブログ
フォロー
研究型データサイエンティストのブログ

にほんブログ村 カテゴリー一覧

商用