機械学習コンペ(テーブルデータ)をする時の特徴量管理を考える #1
kaggleなどでのテーブルコンペの公開ノートブックではそのノートですべてを完結させるという意味でもノート内で特徴量を作成していることが多いです。 しかし、長期間のコンペになると実験数は増えるし、処理に時間がかかる特徴量を使うケースも増えてきます。実験のたびに特徴量を計算するのは地球にやさしくない。。。 この問題に対するシンプルな対策は作った特徴量をファイルで保存しておいて読み取るだけにすることだと思います。 具体的な方法は kaggle 特徴量 管理 でググれば素晴らしい記事がいくつも出て来ると思います。 今回は特徴量毎に数値特徴量かカテゴリ特徴量かの情報も欲しくなったのでその情報も一緒に管…
2022/06/09 19:30