汎用言語モデルBERTのpre-trainingを試す[NLP][BERT]
本記事では,2018年秋に登場し話題になったBERTのpre-trainingをとりあえず動かしてみるまでをレポート. 今回は,google-researchのリポジトリのサンプルテキストを使って動かすまでを紹介する.今後,自作のテキストを使ってpre-trainingする予定があるので,その布石として手順を残す. BERTの実行環境を整える 過去書いた下の記事を参考に実行環境を整備する. vastee.hatenablog.com BERTのpre-trainingを実行 今回は,bertフォルダ内にあるsample.txtと$BERT_BASE_DIR/vocab.txtを使う. samp…
汎用言語モデルBERTを使用する際に,テキストクレンジングを行う関数を見つけ,読んでみると勉強になったので記事にしてみた. 参考にしたのは,Google Researchの実装である. github.com まず,BERTのコード(tokenization.pyのFullTokenizerクラスのtokenize関数の中)で見つけたテキストクレンジングの関数を以下に貼る. def _clean_text(self, text): """Performs invalid character removal and whitespace cleanup on text.""" output = […
「データマイニング・機械学習分野の概要」を読んで参考になったこと[ML]
神嶌 敏弘さんがご自身のHPで公開している「データマイニング・機械学習分野の概要」という資料が,深層学習の歴史と,国際会議の動向を知る上で大変役に立ったため,本記事では,スライドを読んで参考になったことをまとめてみる. まずは,資料へのリンクを貼らせていただく. www.kamishima.net 機械学習・データマイニング全般というメニューの中から,データマイニング・機械学習分野の概要」という資料が見つかるはずだ.変更があった際には,こちらのページに最新版をアップしているようだ. 以降,参考になったことをつらつらと書いてゆく. P9 データ分析に関わる分野の変遷 統計的機械学習のルーツがルー…
EC2のGPU付インスタンスでCloud9を使う[AWS][Cloud9]
Cloud9を構築する際にデフォルトで選択できるインスタンスはCPUのものしかない. このため,筆者はGPU付きのインスタンスを別でたてて,そこにCloud9をインストールをしたのだが,色々とハマりポイントがあり,1週間ほどこの作業に費やしてしまったので,備忘録として本記事を作成する. EC2でGPU付きインスタンスを構築 AWSコンソールでインスタンスをたてる.基本的な方法は,ほかにも紹介記事がたくさんあるので割愛. 注意点① インスタンスのストレージを250GBくらいに変更しておくこと. デフォルトの値は8GBであったため,NVIDIAドライバをインストールするとすぐ容量いっぱいになってし…
EC2で環境を構築する際にNo space left on deviceになったときの対処法[AWS]
AWSのEC2でKaggle用計算サーバーを構築しようと思い,Nvidiaのドライバをインストールすると,No space left on deviceのエラーがでた. df コマンドで容量を確認すると,ディスク上のファイル占有率が100%になっていた. これは困った.ディスクを小さくしすぎたか...もう一度インスタンスの立て直しからスタートなのかと途方に暮れながら,ネットで対策を探していると,なんとAWSではいったん立てたインスタンスのディスクのサイズを変更できるとのことなのだ! 早速,ELASTIC BLOCK STORE のボリュームのメニューから,該当のボリュームを選択し,ボリュームの…
LightsailでCloud9を構築[AWS][Cloud9]
ブラウザで動くCloud9が使いやすいということを知り,好奇心に駆られインストールしてみることにした. AWS Lightsailでレンタルサーバーを借りる(有料) サーバーにNode.jsをインストールする(勿論無料) AWS Cloud9で新しいIDEをサーバー上に構築(無料) AWS Lightsailでレンタルサーバーを借りる(有料) まずは,以下のサイトを参考にしてAWS上にレンタルサーバーを借りる. このとき,私はOS:Ubuntu16.04で月$3.5のプランを選択したので最初の1か月間は無料のキャンペーンが適用された. qiita.com サーバーにNode.jsをインストール…
自宅のデスクトップPCでスクレイピングのプログラムを回していたら,CPUクーラーの稼働音がうるさくて嫌になったので,サーバー上でプログラムを動かすことを決意し,手順をググる. そして,以下のブログに載っている手順が非常にわかりやすかったので,忘れないようにメモする. review-of-my-life.blogspot.com 分かりやすさのポイントとしては,Herokuでseleniumを動かしてGoogleのタイトルを出力させるという簡単なタスクを実行することを目標に手順が体系化されて説明されているので,説明を追っているだけでHerokuがどういうサービスなのか,何に応用できそうなのかが理…
sshでPermission denied (publickey).がでたときの対処法[GitHub]
~/.ssh/configに以下を追記しよう. Host github.com HostName github.com IdentityFile ~/.ssh/github/github_key User git 注意点:Host githubではなく,Host github.comを入力しよう.(巷のブログでは前者の方で書かれていることが多い) ~/.ssh/configの設定で,デフォルト以外の名前の秘密鍵でも読みに行ってくれる. ssh-keygenによる鍵生成でデフォルト以外の名前を設定すると,GitHubに公開鍵を登録した後,Permission denied (publickey)…
HerokuにPhantomJSをセットアップ[Heroku]
$ heroku config:add BUILDPACK_URL=https://github.com/ddollar/heroku-buildpack-multi.git $ touch .buildpacks $ echo "https://github.com/heroku/heroku-buildpack-python" >> .buildpacks $ echo "https://github.com/stomita/heroku-buildpack-phantomjs" >> .buildpacks $ git add --all $ git commit -m "add pha…
heroku loginでcannot open browserが出た場合の対処法[Heroku]
heroku login --interactive
LightsailでCloud9を構築[AWS][Cloud9]
ブラウザで動くCloud9が使いやすいということを知り,好奇心に駆られインストールしてみることにした. AWS Lightsailでレンタルサーバーを借りる(有料) サーバーにNode.jsをインストールする サーバーにPythonをインストールする AWS Cloud9で新しいIDEをサーバー上に構築 AWS Lightsailでレンタルサーバーを借りる(有料) まずは,以下のサイトを参考にしてAWS上にレンタルサーバーを借りる. このとき,私はOS:Ubuntu16.04で月$3.5のプランを選択したので最初の1か月間は無料のキャンペーンが適用された. qiita.com サーバーにNod…
Pythonを3に切り替える[Ubuntu][Python]
$ sudo mv /usr/bin/python /usr/bin/python2 $ sudo ln -s /usr/bin/python3 /usr/bin/python $ python --version Python2とPython3が既にインストールされたUbuntu環境が対象. pythonコマンドに貼られていたリンクを一旦削除し,python3へリンクを貼りなおすという手段で切り替えを行った.
「ブログリーダー」を活用して、Vasteeさんをフォローしませんか?