でーた科学 - にほんブログ村

ジーズシアトルのプログラミングキャンプ全編

とても久々の投稿です、実に半年以上ぶり。 2020年1月に1ヶ月間シアトルで開催されたプログラミングキャンプに参加してiOS(swift)の勉強をしてきました! (コンピュータミュージアム@シアトル)キャンプを開校したのは東京をベースにしたジーズアカデミー(以下ジーズ)と呼ばれる起業家エンジニア養成スクールです。私が参加した1月コースがシアトルキャンプの第1期生ということで、今回キャンプに行くことになった経緯やシアトルでの経験をブログにして、2期生以降の参考になればいいなと思って書きました。シアトルコース行きたいけど迷ってる、シアトル行きが決定したけど不安だ、という方に読んで頂けると嬉しいです…

2020/02/26 23:55

Rで機械学習モデルを構築する方法

個人的にはpythonが得意なのですが、Rの復習も兼ねて簡単にデータから機械学習を構築するまでの流れを追ってみました。機械学習初学者やpython使いだけどRを勉強したいという方の参考になれば幸いです。 (Kaggleのカーネルを参考にしています。) データ確認データクレンジングモデリングデータ確認今回は不動産価格の予測を行います。データは以下のgithubからcsvファイルをダウンロードしてください。 handson-ml/datasets/housing at master · ageron/handson-ml · GitHub ちなみにこのデータ、私の大好きなオライリーの本…

2019/06/01 12:23

herokuのPostgresSQLをNode.jsで触る方法

herokuのPostgreSQLを使ってデータの保存読み込みを行ったのでメモ。最後はNode.jsで書いてますが、途中までは他の言語でも参考になるはずです。一連の流れの説明がなかったので残しておきます。やりたいことは、 heroku のアプリにデータベース(PostgreSQL)を追加 ⬇︎ コマンドからPostgreSQLにテーブルを追加して適当な値を格納する。 ⬇︎ Node.jsからデータベースにアクセスして、PostgreSQL内のデータを触って見る。という流れです。herokuにはアプリ登録していてPostgreSQLは追加していないところからスタートします。 - heroku …

2019/05/29 21:02

アンサンブル学習、AdaBoost(アダブースト)の数式を分解してみた

機械学習と統計学は切っても切り離せない関係です。が、統計学って数学の一種なので簡単な事象に対しても小難しい式を使いがちですよね。。私自身物理学科出身なので学生の時にシュレディンガー方程式やらマックスウェル方程式やらを扱っていましたが、数学を仕事も含めてずっと扱ってきた人に比べると理解力は圧倒的に低いと思います。(そもそも数式は得意な方ではないです。) 上記を感じたのは最近アンサンブル学習の中身をそろそろ知らんとあかんなと思い、AdaBoostについて勉強していたことがきっかけです。愛読書の機械学習参考書で該当説明を見ていましたが、一読で飲み込めなかったので何度か読み込みネットでも調べてやっ…

2019/02/10 22:55

Rのshinyライブラリを使って株価をグラフで見える化する方法

Rのライブラリーの一つ、練習がてらshinyを使って株価即見画面を作って見たのでコードを残しておきます。Rで株価見える化画面。株の銘柄と時期を選択すると、株情報をネットから取得して表示。shiny libraryでここまで作るのに30分。Rだけで書けるので、言語の勉強にはならないが、有用性で言えば最強libraryなのでオススメ。そのうちブログにコード載せとこ。#駆け出しエンジニアと繋がりたい pic.twitter.com/kUdpTjsFIA— かず (@randomlyforest) January 27, 2019機能は「見たい株価の銘柄を選択できる」、「見たい株価の期間を選択できる」…

2019/02/01 22:21

scikit-learnのcross_val_scoreを使って交差検証(Cross Validation)をする方法

機械学習モデルを作る時、与えられたデータを全て用いてモデルの学習・精度向上を行うと、そのデータに対してのみ精度の良いモデル(理想のモデルに近づけていない。)が出来上がってしまい、未知のデータに対して適用できなくなってしまいます。そのため通常、データをあらかじめ学習用と検証用に分けておき、学習用データでモデル作成→検証用データでモデルの精度を確かめるという手順でモデリングを進めていきます。さて、上記のように学習データ内で精度の良いモデルを作るのですが、こちらも学習データに特化したモデルを作ってしまうと、いつまでたっても精度の良いモデルができません。(特に学習データが少ない場合。)この問題を解決…

2019/02/01 18:10

pythonのitertoolsを使ってベクトル各要素の総当たりを行う方法

pythonでAというベクトルとBというベクトルがあった時に、その要素をA vs Bで総当たり的に計算させて最適解を求めたいという時に使えるツールを備忘です。itertoolsというライブラリーを使います。 import itertools 以下のようにベクトルAとベクトルBの各要素で総当たりprintを行います。結果は全組み合わせが表示されます。 A = ['1', '2', '3','4'] B = ['a', 'b', 'c','d'] for i, j in itertools.product(x, y): print(i, j) output>

2019/01/26 18:22

Rのdygraphsを使っていけてるグラフを出力する

dygraphsとはJavaScriptで書かれてかっこいいグラフを描けるライブラリーです。本当にかっこいいしすぐ作れます。今回はアマゾン株を取ってきます。まずは以下のサイトから、アマゾン株をCSVで落とします。 CSV Historical Prices Carriage Services, Inc. Stock - Yahoo Finance作業ディレクトリーにCSVファイルを保存。以下でデータフレームを作成。 mydata <- read.csv('AMZN.csv') データフレームを時系列処理ができるxtsオブジェクトに変換。一旦zooオブジェクトを挟んで変換するのでzooもイ…

2019/01/20 21:23

つまらない仕事を振られた時にやる気を出すための2つの心持ち

会社員をしていると無駄に思える仕事、やりたくない仕事、泥臭い仕事させられるようになりますよね。そんな時ってやる気出ないし、ストレス溜まるし、誰かやってくれよと思ってしまうものです。精神衛生上非常に良くない。そんな時の仕事に対する考え方、心の持ち方について私なりに感じてることを述べたいと思います。論点は以下の2点です。・そもそもこの仕事続けていいのか・モチベーションの維持そもそもこの仕事を続けていいのかどんな仕事するときに気持ちが萎えますか？以下に私のケースを挙げておきます。私は以前機械設計の部署にいてエクセルを使ってましたが、人が作ったエクセルを流用することがよくありました。…

2019/01/16 22:35

sklearnのStratifiedShuffleSplitを使ってテストデータを作る方法

マスターデータからトレインデータとテストデータに分ける時、テストデータの目的変数分布がマスターデータの目的変数分布と同じになるように作成する方法の備忘録。kaggleのタイタニックデータを使用。 csvファイルにはtrainと書いているがこのデータが全データと過程。 import pandas as pd import numpy as np titanic_df = pd.read_csv("train.csv", error_bad_lines=False) titanic_df.head() output> 今回は簡単のため、数値データのみのデータとするよう処理。 sample_df =…

2019/01/14 21:51

Progateでプログラミング勉強している未経験エンジニアが知っておくべき目標

駆け出しエンジニアの方は、どこまで勉強すればエンジニアに転身できる？という疑問を抱えながら勉強されているのではないかと思慮します。中でもProgateを使って勉強している方が少なからずいらっしゃると思うのですが、果たしてProgateを修了するとエンジニアになれるレベルなのかなという希望的観測と、いや全然足りないよという知りたくない不都合な真実の間で揺れているかと思います。実際私も不安を抱えながら勉強していました。ちなみにProgateを知らない駆け出しエンジニアさん、今すぐ始めることをオススメします！Progateはオンラインでプログラミングの基礎を学べる超優良サービスです！駆け出し…

2019/01/13 14:12

pandasでサイズの大きいファイルの読み込み方

kaggleのファイルが大きすぎてpandasでまとめて読み込めなかったのでその時の対処法をメモ。今回はCSVファイルを使っています。もうこの時点でナンセンスなのかもしれない。笑普通にCSVファイル読み込むときはこんな感じ。 df = pd.read_csv('train.csv') しかし、ファイルがでかすぎてメモリ不足のエラーが出る。そこで、ファイルを分割して読み込んでからデータフレームをがっちゃんこさせる作戦。以下のようにファイルを読み込ませます。chunksizeと指定することにより指定サイズ分の列ごとに取り出すTextFileReaderのインスタンスを作る。 df1_insta…

2019/01/12 22:36

kaggleのデータファイルをコマンドでダウンロードする方法。

kaggleでコマンドを使ってデータファイルをダウンロードするまでのメモ。直接ファイルをダウンロードしてもいいのですが、kaggleのAPIを使ってterminalからダウンロードしたのでやり方を置いておきます。やり方はここに書いてあります。まずはkaggleのコマンドが使えるようにをインストールします。 pip install kaggle するとコマンドでkaggleが使えるようになります。次にAPIを使えるようにするためにKaggleサイト内のアカウント設定で、Create New API Tokenを押して、kaggle.jsonファイルを発行します。このJsonファイルを以下のフ…

2019/01/12 18:31

pythonのpandasで株価情報を取得してplotlyでローソクチャートを描く方法

pythonを使って株価取得からローソクチャート図作成までのメモ。超簡単なのですぐにできるはず。今回はplotlyを使って書いて見た。が、ドキュメントが古いらしく最新の説明が少なかったのであとでmatplotlibで書き直す予定。 plotlyのドキュメント→Python Candlestick Charts plotlyまずは必要なライブラリーをインポート。 import pandas as pd from pandas import Series, DataFrame import numpy as np %matplotlib inline

2019/01/06 20:56

持ち株会入会資産シミュレーションのpythonコード

持ち株会入会資産シミュレーションを行ったpythonコードをつらつらと書いていきます。本編こちらです↓ dorei-kaiho.hatenablog.com必要なライブラリーをインポート。 import numpy as np import pandas as pd import random import matplotlib.pyplot as plt %matplotlib inline

2019/01/05 15:39

知らないと損する福利厚生。pythonで資産シミュレーションして見た結果。

今回は知らないと損する福利厚生、持ち株会について考えてみます。持ち株会に入るべきか否か迷ったことがあると言う人向けに、持ち株に入ることによる資産シミュレーションを行ってみました。私自身も一時期自社の持ち株会に入るか迷った時期があって、持ち株入会のメリットデメリットを考えたことがありました。以下目次です。・持ち株会とは？・持ち株入会要否を選ぶポイント・持ち株入会時の資産シミュレーション (※pythonのコードは一番下に貼ってあるリンクからご覧ください。)

2019/01/05 15:13

ITエンジニアは他職種よりもお金持ちになる可能性が高い説

サラリーマンとして給料をもらうようになると、貯蓄だの投資だのとお金への関心が学生の頃に比べて強くなりませんでしたか？会社に入って給料の額がなんとなく決まっている状況でどうやったらお金を増やすことができるか問題については少なからず皆さん関心があると思います。今回はITエンジニアという職種を選べば、同じ給料の他職種(営業、機械エンジニア、人事など)に比べお金持ちになれるんじゃないか？というお話をしようと思います。以下のように話を進めていきます。・お金持ちとは？・お金持ちになるには？・なぜITエンジニアはお金持ちになりやすい？・非エンジニアとITエンジニアの資産比較まずは今回お話する「お金…

2019/01/03 22:34

Node.js環境構築とbabelによるES6のコンパイルのやり方メモ

サイドプロジェクトでJSを勉強し始めて、node.jsのインストールをしたので環境構築の手順を残しておきます。インストール手順は以下。・Homebrewのインストール。・nodebrewをインストール。・node.jsをインストール。・babelのインストール。まず、Homebrewのインストール。すでにインストールされている可能性もあるので以下で確認。No such file or directoryと出たら未インストール。 brew -v

2019/01/01 15:05

中国のIT産業は日本よりかなり進んでいると感じた3つのサービス

中国のITサービスがすごいってネットで騒ぐ方々がここ数年多い気がしますが、実際何がすごいのか私自身イメージが湧いていませんでした。しかし、つい先日仕事で(初めて)中国を訪れる機会があり、中国のITサービスを目の当たりしたので、その時の話を少ししようと思います。とはいえ、サービスといっても地域によっては行き届いていなかったり、流行っていなかったりするそうなので、一概に'中国'とひとくくりにはできないかもしれません。私が訪れたのは青島と呼ばれる日本からかなり近いところに位置する都市です。(チンタオビールで有名な都市です。)

2018/12/27 21:56

pythonのsklearnを用いた機械学習モデルの作り方

前置き非エンジニアの方で、AIとか機械学習とかって実際何しているんだ？と疑問に思うことは一度はあったはずです。あるいは駆け出しエンジニアの方で、python勉強し始めたけど予測モデルとかどのように作られていかイメージできないという方少なからずいるはずです。本屋で売られている参考書はnumpyのランダム関数使って適当にデータを作っているものが多く生のデータを扱っているものが少ないように感じます。(中上級者向けならあるかもですが。)そういった疑問解消に少しでも貢献できればと思い生のデータを渡されてから予測モデルを作るまでの一連の流れを整理して見たいと思います。よって、本記事は非エンジニアと駆け…

2018/12/24 16:07

pythonのnumpyを用いて時系列データの外れ値(outlier)を取り除く方法

時系列データで外れ値を除去する方法についての備忘録。一般的にデータで外れ値を除去するには、例えば、データ全体の標準偏差を算出し、2σの外側に位置する値を取り除くというやり方があります。分かりやすい例があったので貼っておきます。 pandasのデータフレームから外れ値を含む行を取り除く - Qiitaしかし、時間軸によって値全体が変動する時系列データの場合、データ全体を一括に処理することができないことが多いでしょう。どういうことか、実際にデータを作って見て見ましょう。

2018/12/23 22:02

未経験からITエンジニアに転身できるのか？

こんにちは。前回に引き続き未経験からITエンジニアへの転身についての考えていきたいと思います。前回の記事ではいざITエンジニアとして働き始めた時の不安点に関して、仕事内容の観点から私自身が感じていたことを整理しました。 dorei-kaiho.hatenablog.com 私の自己紹介は以下のリンクに簡単に記載しています。 dorei-kaiho.hatenablog.com 未経験からITエンジニアになりたいけど世の中にはどういう選択肢があるんだ？待遇どうなんだろう？と思われている方が少なからずいらっしゃると思います。今回は未経験からITエンジニアという職種につきたいと思った時に取り得る…

2018/12/09 16:22

pandasのDataFrameで分位点で5つに分割しグループ分けするやり方。

分位点については以下で説明しています。 dorei-kaiho.hatenablog.com今回は分位点による4分割ではなくあえて(深い意味はありません)5分割のグループ分けをしたいと思います。まずはデータを用意します。データフレームはインデックス名をa〜uまで振っています。 import numpy as np import pandas as pd from pandas import DataFrame data = np.random.randint(1,100,20) data output > array([61, 29, 19, 15, 54, 8, 20, 27, 27, 8…

2018/12/08 23:10

データ分析によく出てくる四分位点とは何か。

おそらく名前から想像できる概念そのままです。データの外れ値などを捉えたい時などに使う基本的な分類手法です。一言で言うと、「データを値の大きさに沿って等しく四分割する時の境界となる値」のことです。以下のような数字の羅列があったとしましょう。 import numpy as np import pandas as pd from pandas import DataFrame data = np.random.randint(1,100,20) data output> array([ 8, 53, 72, 88, 39, 76, 52, 62, 83, 50, 85, 60, 92, 88,…

2018/12/08 18:16

若手サラリーマンが未経験からITエンジニアになったら全く後悔しなかった話。

こんにちは。今日は、プログラミングを使った業務経験はないけれどもITエンジニアになりたいという方に向けて、私がITエンジニアに転身して感じたことを綴っていきたいと思います。 ITエンジニアと言っても定義はかなり広く、インフラ系やウェブ系やネットワーク系や統計処理系などなど千差万別です。それゆえに、職種変更までの過程や興味志向に関しても人それぞれだと思います。私の場合は機械学習系のエンジニアとしての職種の変更をしました。私については以下で自己紹介しています。 dorei-kaiho.hatenablog.com ITエンジニアへの転身に関しては色んなことを考えたり聞いたりし、実際に転身を…

2018/12/07 22:56

pandasのDataFrameでgroupbyを使って項目ごとの合計値を比較する方法。

購買の記録などを分析するときに購買されたモノ別のデータを比較したい時があると思います。今回は、モノ別の売り上げ個数合計値を比較します。まずはデータフレームを作成。今回はフルーツの名前と、それぞれの売れた個数を表示させてます。 import pandas as pd import numpy as np df = pd.DataFrame(np.array([['apple','orange','grape','apple','peach','apple','peach','orange','grape','apple'], [11,23,12,13,47,23,53,36,70,93]])…

2018/12/02 22:02

日本のAI技術者に対する需要は今後どうなるのか？

先日某外資IT企業を訪問し、AIに関するビジネスアイディアの議論を行ってきました。ネット経由で最近の技術動向やニュースなどはチェックしているつもりですが、やはり世界最先端の技術開発をしているエンジニアと議論を交わすと最先端技術は想像を超えていることを実感します。記事などで読むより、実際にデモして貰ったりする方がイメージが湧くので。さて、今日はこれからのAI技術者に対する需要に対して個人的に感じていることを綴ろうと思います。 AIの流行りはそろそろなくなっていくという意見が増えてきた気がするので、AI技術者を目指す方などの参考になればなと思います。(ただの思考の整理です。) 私については以…

2018/12/01 17:25

自己紹介

かずと申します。現在大手メーカーで機械学習エンジニアとして働いています。AIアルゴリズムの開発は昔から興味あった技術であり、仕事として携わらせてもらっていることはとてもありがたいことだと思いながらも、やはり機械学習の有用性に対して理解のない人も周りには多く、結果を出さないとこの手の仕事は外注になりかねないという不安と日々奮闘しております。僕は現在20代後半で物理専攻の修士卒です。修士卒でこの年齢だと社内ではかなりの若手です。やはり、大手企業の平均年齢はかなり高いということを実感しています。私の経歴は以下です。物理専攻修士卒 ↓ 機械設計エンジニアとして就職 ↓ ITエンジニアに転身したいと決…

2018/11/25 20:31