PyTorch/TensorFlowのトレーニング時にWSL2がハングする現象
結論 今回は結論のみ。 WSL2上でPyTorch/TensorFlowで画像モデルのトレーニングを行う際に、データローダーをマルチスレッドで動かすと、トレーニングがハングする現象が発生しました。 ある程度のイテレーションは学習が進むのですが、途中で突然プログレスバーが全く進まなくなるという感じの挙動です。 私のケースではWSL2がWindowsのディレクトリ(/mnt/c 以下)にアクセスする際のパフォーマンス問題によって起こった現象のようでした。なんとなくキャッシュと言うかスクラッチ領域みたいなのがあって、それを超えた読み書きが行われると止まる、みたいな挙動に見えます。 類似の現象は以下の…
2024/02/27 20:36