chevron_left

メインカテゴリーを選択しなおす

cancel
teyoblog
フォロー
住所
未設定
出身
未設定
ブログ村参加

2020/03/20

arrow_drop_down
  • 機械学習コンペ(テーブルデータ)をする時の特徴量管理を考える #1

    kaggleなどでのテーブルコンペの公開ノートブックではそのノートですべてを完結させるという意味でもノート内で特徴量を作成していることが多いです。 しかし、長期間のコンペになると実験数は増えるし、処理に時間がかかる特徴量を使うケースも増えてきます。実験のたびに特徴量を計算するのは地球にやさしくない。。。 この問題に対するシンプルな対策は作った特徴量をファイルで保存しておいて読み取るだけにすることだと思います。 具体的な方法は kaggle 特徴量 管理 でググれば素晴らしい記事がいくつも出て来ると思います。 今回は特徴量毎に数値特徴量かカテゴリ特徴量かの情報も欲しくなったのでその情報も一緒に管…

  • 大気中の汚染物質濃度の予測に挑戦しよう!に参加してきました

    SIGNATEで開催されていたソニーグループ合同 データ分析コンペティション(for Recruiting)に参加してきました。 結果は835人中84位で上位10%くらいでしょうか。20位までsony製品の賞品が出るコンペだったので商品に手が届かず悔しいです。 内容 待機観測データ等を用いてpm25の値を予測するコンペです。細かい概要とデータについてはコンペサイトに記載されています。 trainとtestは都市ごとに分かれていること、3年分だが計測に欠損はたくさんある(1000日分くらいデータが有る都市もあれば殆どない都市もある)ことが特徴に思いました 取り組みと解法 前処理 Trainから測…

arrow_drop_down

ブログリーダー」を活用して、teyoblogさんをフォローしませんか?

ハンドル名
teyoblogさん
ブログタイトル
まだタイトルない
フォロー
まだタイトルない

にほんブログ村 カテゴリー一覧

商用