【R言語】データサイズ・行数が異なるテキストファイルにおけるファイル読み込み関数の速度比較
最近、数GBを超えるテキストデータを扱うようになり、今更ながら、Rのファイル読み込み関数の速度比較について一度検討してみた。 今回、以下の3つのファイル読み込み関数について調査してみた。 utils::read.table関数 data.table::fread関数 readr::read_csv関数 もくじ opensslコマンドを用いた、ランダム文字列の生成 echoとtrコマンドを用いた文字列の生成 seqコマンドを用いた連番数字の生成 検証用ファイルの生成 utils::read.table関数でのファイル読み込み data.table::fread関数でのファイル読み込み readr…
GitHub API( git & gist コマンド )の使い方入門
GitHub は、ソフトウェア開発のプラットフォームである。また、ソフトウェア開発者のみならず、ソフトウェア・ユーザーにとっても、ほぼ必須といえる、コード共有のコミュニティでもある。 GitHubリポジトリにアクセスする際のAPIである git コマンド、手軽にコード公開・ファイル公開ができる gist サービスのAPI gist コマンドについて、それぞれのインストールから、実際の使い方までをまとめてみた。 GitHubは少しの間やらないと、すぐにコマンドを忘れてしまうのは困ったものだ、、、 実行環境 macOS Catalina (10.15.4) MacBook Pro (12-inch…
htmlwidgets for R のShowcaseにあるパッケージがCodePenでブログ表示できるかを調べた件
htmlwidgets for R パッケージは、Rでインタラクティブな図が作成できる王道的なパッケージであり、それを使った色々な依存パッケージが開発されている。 www.htmlwidgets.org 今回、htmlwidgetsのshowcaseにある12パッケージをHatena Blog内の図表として表示するにあたって、(1)Html 出力の可否 、(2)CodePen対応できるか?、さらには(3)ブログ表示できるか?を調べてみた。 とりあえず、結果 パッケージ html output CodePen はてなブログ表示 Leaflet 473KB ◯ ◯ Dygraphs 574KB ◯…
Rパッケージ探索のための情報サイトをまとめてみた件 〜2020年版〜
特に、パッケージユーザーとしては、Rパッケージの開発状況を定期的にフォローして、日常の解析作業にいち早く取り入れていくのが良いだろう。 Rパッケージを探索する際の一助となればと、参考となる情報サイトをまとめてみた。 CRAN系 CRAN Task Views 解析法ごとの専門的なレビューとともに、開発の歴史を含めて、Rパッケージが紹介されている。 例えば、Machine Learning & Statistical Learningというセッションでは、Rの機械学習パッケージ群やそれらの関係性がレビューされている。 cran.r-project.org The R Journal Rパッケージ…
Homebrew を使って、Python3をインストールしたときの設定諸々
Anacondaは使わずに、 Homebrewでインストールして、Python3をPyhonコマンド、pip3をpipコマンドとして使う。IDEは重たくて使わないという、非Anaconda派に向けて。 私はPythonもRStudio派ですけど。 Homebrew でPython3をインストールする。 実行環境 macOS Catalina (10.15.4) MacBook Pro (12-inch, 2019, Four Thunderbolt 3 ports) 1. Homebrew で、Python3 をインストールする*1*2 $ brew install python これで完結す…
【macOS X編】 Homebrewで、RStudio Serverをインストールしてみた件 + nginx設定
RStudio Serverは、PCやサーバー上で動作する、R言語のブラウザベース・インターフェイス(ブラウザ型RStudio)である。 通常、クライアントPCで計算コストが高い作業をすると、当然PCが別作業で使えなくなる*1。 そこで別にPCやサーバーがネットワーク上にあれば、そちらで高負荷な計算を実行しておいて、手元のPCでは別作業できる環境が、RStudio Serverで簡単に作れてしまう。 RStudio Serverには、一般的なブラウザ(Chrome、Firefox、Safariとか)でアクセスできるので、RStudio Serverごとに別作業できたりする。 RStudio S…
2020年版 無料かつ会員登録不要の『データ解析関連のオンライン講座』を調査した件【5/6更新】
調査の背景 「ビッグデータの解析」「機械学習(ML)」「ディープラーニング(深層学習)」等々、テレビでもニュースでも溢れかえっている。というか、もうすでに飽き飽きしているかもしれない。 気づけば、巷には、様々な機能のモジュールのオープンソース化(TensorFlowとか)、Auto MLや自動化AIのソフトウェアといった、便利なツール群も充実してきて、実際、MLのことを深く知らずとも、簡単にMLのプログラムを書けて実行できる。。 これからのData Scientistは特段知識なくても、データ解析ができる*1。 ただし、基礎的なバックグラウンドがないと、間違った結果を導いたり、 既存の自動化処…
Mac grepコマンド で基本的なテキスト処理をまとめてみた件
grep コマンドは、AppleのHPにファイル内の文字列を探すツールであると説明されているが、 grep コマンドを知ると、単に「文字列を探す」だけでなく、 いろいろな応用的な操作ができるようになる。 この記事では、Mac版 grepコマンド の基本的なテキスト処理をまとめてみた。 前準備 適当な作業フォルダを作成して、同フォルダ内に移動する。 $ mkdir TEST # TESTフォルダの作成 $ cd TEST # TESTフォルダへの移動 $ which grep # grepのパスを見ておく /usr/bin/grep サンプルテキスト(text.txt)をGitHubからダウンロ…
Homebrewで Java の特定バージョンをインストールするときのTips
Homebrewのインストール・環境設定のやり方については以前の記事を参考にしてください。 skume.hatenablog.com Java について Javaは、クラスベースのオブジェクト指向の汎用プログラミング言語である。 現在、JavaはOracle社から配布されているが、 ダウンロードサイトがイマイチ分かりにくい。 また、オープンソース・バーションとしては、 2007年より、「OpenJDK」*1 としてGNUライセンス下でリリースされている*2。 Javaのバージョンが違うと、プログラムが動作しないことがある。ここで、問題となるのは、バージョン番号 と Java バージョン との対…
macOS用パッケージマネージャー Homebrewのやり方をいつも微妙に忘れてしまう件
大学時代には、MacPortsを使っていたが、 ある後輩に勧められ、Homebrewを使うようになった。 特に、MacPortsがどうとかいうわけではないが、 それ以降、Macでのパッケージ・インストールは、Homebrew で行っている*1。 Homebrew は、macOS X用のパッケージ管理システムである。 macOS X用のメジャーなパッケージ管理システムには、Fink、MacPorts、Homebrewと3つある。 下表にまとめると、Homebrewが一番新しく、あと、Homebrew実行時には確かにRubyが走る。 管理システム リリース 言語 Fink 2000年 Perl M…
「ブログリーダー」を活用して、skさんをフォローしませんか?