今日 | 04/23 | 04/22 | 04/21 | 04/20 | 04/19 | 04/18 | 全参加数 | |
---|---|---|---|---|---|---|---|---|
総合ランキング(IN) | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 1,034,307サイト |
INポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
OUTポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
PVポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
教育ブログ | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 10,901サイト |
プログラミング教育 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 326サイト |
科学ブログ | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 2,691サイト |
生命科学 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 100サイト |
コンピュータサイエンス | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 32サイト |
今日 | 04/23 | 04/22 | 04/21 | 04/20 | 04/19 | 04/18 | 全参加数 | |
---|---|---|---|---|---|---|---|---|
総合ランキング(OUT) | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 1,034,307サイト |
INポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
OUTポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
PVポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
教育ブログ | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 10,901サイト |
プログラミング教育 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 326サイト |
科学ブログ | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 2,691サイト |
生命科学 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 100サイト |
コンピュータサイエンス | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 32サイト |
今日 | 04/23 | 04/22 | 04/21 | 04/20 | 04/19 | 04/18 | 全参加数 | |
---|---|---|---|---|---|---|---|---|
総合ランキング(PV) | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 1,034,307サイト |
INポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
OUTポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
PVポイント | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0/週 |
教育ブログ | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 10,901サイト |
プログラミング教育 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 326サイト |
科学ブログ | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 2,691サイト |
生命科学 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 100サイト |
コンピュータサイエンス | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 圏外 | 32サイト |
R言語/Webスクレイピングで、Google サーチ / Google scholar経由で見つかったPDFファイルを自動ダウンロードしてみた件
Webスクレイピングとは、Webサイトから情報を抽出して、その情報を格納・分析可能な構造化データへと変換する技術を意味するようだ*1。 本記事では、RからWebスクレイピングで、 キーワード検索してヒットしたURLやPDFファイルを自動取得する方法を紹介します。 普段から、Googleサーチで情報検索したり、 論文や文献のPDFファイルを探したりしているのではないかと思います。 ユーザーの検索履歴などがトラッキングされ、 それに合わせて情報が提示される昨今、、、 もう、Googleサーチですら面倒だと思いませんか。 まぁ、少し譲歩して、 「R上から検索語を入れて数十ファイルをダウンロードできる…
【Macの定期メンテナンス】Finderのクイックルック機能、GUIでのファイル・フォルダ移動が遅くなり始めたら、結局これをやること。。
Mac歴が12年以上となるが、Mac PC内の定期メンテナンスは、過去のOSバージョンからも悩ましい問題である。 過去には、ディスクユーティリティをいじってみたり、 ファイルのセグメント化を直してみたりと、 いろいろと試したが、結局あまり効果がない。 Macが遅くなる原因の1つとしては、以前にも取り上げた、 「Spotlight のインデクスを作成するプロセス」があるのだが、 それだけではあまり変わらない場合がある。 skume.hatenablog.com MacOSで見えている部分、GUI動作のほとんど、 例えば、デスクトップ画面やツールバーの表示、ファイル・フォルダの移動・表示・管理など…
【Mac版】wgetでGoogle DriveからファイルをダウンロードするTips〜フォルダの共通設定からwgetコマンド実行まで〜
最近、データを置いておくのに良さそうな公共リポジトリが見つからず、 やっぱ、Google Driveを使うのが無難かなと思いだしたので、その関連記事を書いてみた。 今回、Google Driveをデータリポジトリとして、データを公開して、 コマンドラインでそのデータをダウンロードするやり方を扱うことにする。 また、後半部分で、wgetコマンドを使用するので、以前の記事を参考にセットアップのこと。 skume.hatenablog.com もくじ テストファイルの生成 Google Driveの共通フォルダ設定・ファイルアップロード ファイルURLの取得・書き換え wgetでのファイル・ダウンロ…
【Rのジミ〜な小技シリーズ】空リストの作成とリスト操作、それと空ベクトルを使ったベクトル結合とデータフレーム結合のトピックスを扱う
またもや、ジミーなトピックであるが、空リストlist()と空ベクトルc()について取り上げてみる。 こういうジミーな技術の積み重ねがスキル向上に繋がるんだと思うんけどね。 今回の内容 空リストlist()からリストを作成する 空ベクトルc()からベクトルを作成する 空ベクトルc()からデータフレームを作成する %%EF%BC%88%E3%83%91%E3%82%A4%E3%83%97%E6%BC%94%E7%AE%97%E5%AD%90%E3%81%82%E3%82%8B%E3%81%84%E3%81%AF%E5%8D%98%E3%81%AB%E3%83%91%E3%82%A4%E3%83%9…
【Rのジミ〜な小技シリーズ】データ解析の前処理で悩まされるデータ重複の問題を扱ってみた件
本記事は、 skume.hatenablog.com の続編である。 さて、これからデータ解析を始めようかという時に、まずやることは該当データのクオリティチェック(品質評価)だろう。 クオリティチェックと言っても、いろいろな方法・考え方があって、データによって様々である。 今回は、最も基本である、データ重複の問題を扱ってみる。 今回の内容 練習データの準備 ベクトル内で、データの重複があるかどうか?・重複をどう扱うか? 2つのベクトル間で、データの重複があるかどうか?・重複をどう扱うか? データフレーム内で、データの重複があるかどうか?・重複をどう扱うか? まとめ 参考資料 練習データの準備 …
バーチャルスライドスキャナー画像(.ndpi)からオリジナルTIFFイメージを取り出す際のTips〜ギガバイトイメージの画像解析入門〜
今回、バーチャルスライドスキャナー画像(.ndpi)の取り扱い方を取り上げる。 .ndpiという画像フォーマットは、浜松ホトニクス社が提供するHamamatsu formatの1つである。 NDPIファイルは「独自メタデータを持つシングルファイルTIFF-likeな形式」であり、一般的によく使われるTIFFとかPNGと比べて、なかなか扱いにくい形式である。 また、TIFF-like形式というのは実際、Compress TIFF 形式で格納されていて、ImageJではその形式に対応したプラグインを導入する必要がある。 今回の内容 NDPIToolsのセットアップ NDPIテストファイルのダウンロ…
SudachiPyは、日本語形態素解析器SudachiのPython版である。 今回、R/RStudio上でのSudachiPyの実行例を概説する。 個人的には、RユーザーにとってPythonパッケージがR環境上で実行できると、いろいろと良いのでは考えている*1。 例の如く、HomeBrewでPythonの環境構築を行う。 skume.hatenablog.com 今回の内容 実行環境 SudachiPyのデフォルト・インストール Sudachi 辞書 fullの設定 R上でのコマンドライン版sudachipyの実行 R上でのPythonパッケージ版sudachipyの実行 自作関数Sudac…
Mac版Dockerで、rocker/rstudio (= RStudio Server Docker Image)をトラブルフリーでセットアップしてみた件
過去の記事で、「【macOS X編】 Homebrewで、RStudio Serverをインストールしてみた件 + nginx設定」を紹介した。 現状、MacローカルでのRstudio Server動作について、 バージョン・アップ等の問題で*1、少々動作が不安定な場合がある。 そのため、ローカル環境で構築せずに、Docker/Rocker を使用することを推奨する。 skume.hatenablog.com Dockerとは、ホストマシンのカーネルを利用して、コンテナ型の仮想環境を作成、配布、実行するための実行環境である。 概要として、環境構築済みのDockerイメージ(= コンテナを起動さ…
【Rのジミ〜な小技シリーズ】ベクトルに「含まれる」「含まれない」要素の取り出し、論理値について
ある数値・文字列が、こっちのベクトルにも含まれるのか、何番目に出現するのか等を考えると、しばしば悩ましい状況がある。 このような、ベクトル間の関係性を調べる方法を紹介する。 (1)あるベクトルから他ベクトルに「含まれる要素」あるいは「含まれない要素」を抽出する方法 例1: 共通に含まれている要素を取り出す あるベクトルから他ベクトルに含まれる要素(共通要素)の抽出を実行する。 x <- c(1, 2, 3, 4, 5) y <- c(4, 5, 6, 7, 8) # x を基準にする場合 a <- x %in% y a #[1] FALSE FALSE FALSE TRUE TRUE x0 <…
Macで、mds_storesのプロセスを消し出したら、Spotlightとの決別のサインかも!?
mds_store というMacのプロセスは、Spotlight のインデクスを作成するプロセスである。これに加えて、mdworkerというプロセスもあり、これらのプロセスが頑張って、Macのファイル検索システムであるSpotlight関連の機能を実現している。 知らず知らずのうちに、mdsプロセスたちが動き出すと、CPU使用率を結構消費するうえに、Mac本体の温度上昇も半端ない。 私の場合、mds_storeが動き出したと気づけば、即座に、アクティビティモニターでプロセスの息の根を止めていた。 ただ、mdsプロセスはしぶとくすぐに復活してくる。。。 mds_storesに対するイライラが域値…
Rのどぎついレインボー・カラーを和らげて、使える色へと変換するTipsについて
楽なので、Rのplot()時に、レインボー色(grDevices::rainbow)を使うんだけど、 お世辞にも良い色とは言えず、ドギツイ色を使うねと周囲から言われる。 今回、それを挽回するために、そのレインボー色を和らげる方法を紹介する。 rainbow関数では、16進数で表される「カラーコード」*1 + 透明度が出力される。 そのため、透明度の設定を変更すると、程良いレインボー・カラーにすることができる。 例えば、grDevices::rainbow(10)の出力結果は、次のようになる。 grDevices::rainbow(10) [1] "#FF0000FF" "#FF9900FF" …
時々にしたくなる、Rの古いバージョンのパッケージ(The previous version packages)をインストールする件
Rを使っていると、稀に、パッケージのバージョン違いで問題が起こる。 そのとき、以前のバージョンのパッケージをインストールする必要がでてくる。 以前のバージョンをインストールする場合には、まず、CRANのパッケージのページにいく。 例えば、psychパッケージだと、以下のURLになる。 https://cran.r-project.org/web/packages/psych/index.html そこで、Downloads:にある、psych archiveをクリックして、アーカイブのページにはいる。 そこのアーカイブのなかから、必要なバージョンを探す。 ここでは、1つ前のバージョン 1.9.…
grepコマンドで文字列処理をやってみた件【その2】検索語のヒット数カウントとか検索語の前後文字の抽出とか色々
「grepコマンドによる文字列処理をやってみた」の続編である。 以前扱えていなかった内容をやっていきたい。 grepコマンドの基本については過去の記事を参照のこと。 skume.hatenablog.com skume.hatenablog.com まずは、サンプルデータをダウンロードする $ svn export https://github.com/kumeS/Blog/trunk/grep_practice_02 $ cd ./grep_practice_02 # test.txtを使っていく。 $ cat test.txt #abcde #ABCDE # #abcdefghijklmn…
PubMed API と googletrans を使って、PubMed掲載論文のAbstract和訳をRでやってみた件
論文のトレンド解析であったり、個別の論文情報、主に要旨(Abstract)を取得してみた。 もう少し発展させて、Abstractの英文テキストの和訳をして、Rmarkdownのレポート作成するまでをやってみた。 今回扱う、RISmed パッケージは、PubMedを含むNational Center for Biotechnology Information (NCBI: アメリカ国立生物工学情報センター)のデータベースから論文情報を抽出するためのツール群である*1。 また、Abstractのテキスト和訳には、以前の記事で紹介した、Pythonの googletrans ライブラリを使用する。 …
「R/Keras/TensorFlowでやるディープラーニングのすゝめ」の連載2回目です。 【1】では、ベクトルデータに対する Autoencoderを取り上げたが、 今回は、 2D Convolutional Neural Network (CNN: 畳み込みニューラルネットワーク) を使ったAutoencoderの実装について紹介する。 下記で登場する、CNN、Maxプーリング、Upサンプリング、活性化関数 などについては、すでに多くの分かりやすい説明記事があるので、そちらを参照のこと。 qiita.com deepage.net qiita.com kansiho.hatenablog.…
Rの「reticulate」を使えば、Pythonライブラリがインポート・実行できる。そして、R上で「googletrans」を用いた日英翻訳をやってみた件
Rの reticulateパッケージは、Python と R の連携性を高めるツール群である*1。 つまりは、Rセッション内でPythonのスクリプトやライブラリをインポートして、シームレスにPythonコードを実行できるなど、RからPythonを呼び出すことができる。 また、RとPythonのオブジェクト間の変換も可能である(Ex. R データフレーム <=> Pandas)。 reticulate::importを使用して、R上で、googletransライブラリを読み込んで、日=>英翻訳、戻し翻訳をおこってみる。 googletransライブラリのメリット・デメリット Googletra…
Rで、ディープラーニング( Deep Learning )をやるというのが最近の活動である。 【1】では、教師なしニューラルネットワークであるAutoencoder(オートエンコーダー)のsimple modelを実装してみる。 Autoencoder は、Encoder(元データから低次元への変換層)とDecoder(低次元から元データに戻す変換層)からなるニューラルネットワークの特殊系の1つである。 Autoencoderでは、出力層で与える教師データを入力層としても与えることで、 入力層と出力層のユニットが同じとなる構造を持つ。 Autoencoderの開発は1980年代に遡り、Hint…
10倍量のヨーグルトを作りながら、菌の増殖曲線を考えてみた件
最近、ヨーグルト作りにハマっている。 種菌(いわゆる、0.1L 飲むヨーグルト)から、10倍量(1L)のヨーグルトを作っている。飲むヨーグルト1本は、だいたい100円くらいなので、10倍量で1000円となって、必要経費を引いても、だいたい700円弱お得である。また、ヨーグルトの酸味や固さを自分の好みにできる。 今回、「ガセリ菌を使った10倍量(1L)ヨーグルトの作製法」と「菌の増殖曲線」について検討したことを、実験ぽく紹介する*1。 10倍量ヨーグルト作製のマテリアル ガセリ菌の種菌(= 某メグミルク製のガセリ菌SP株の飲むヨーグルト) 培地(= 某メグミルク製の牛乳) グルコース(= 三温糖…
【Mac】エクセルのセルをコピーして、クリップボードのまま、Rのread.tableでデータフレームとして直接読み込む時の方法
今までほぼやってなかったけど、さっき使ってみて思いの外便利だったので、今後はこれを使いたいと強いメッセージを込めて、これのみでメモっておく。 まずは、エクセルの任意のセルを選択して、command + c でコピーする。 Rを起動して、以下のコマンドを打てば*1、クリップボードからデータのインポートができる。 ただし、途中で、command + c をもう一度打たないこと。癖で打ってしまいそうになる。。。 コピーしたセルがヘッダーを含む場合 Data <- read.table(pipe("pbpaste"), header=T, stringsAsFactors = F) Data # OR…
エクセルのセルをコピーして、クリップボードのまま、Rのread.tableで直接読み込む時の方法
今までほぼやってなかったけど、さっき使ってみて思いの外便利だったので、今後はこれを使いたいと強いメッセージを込めて、これのみでメモっておく。 まずは、エクセルの任意のセルを選択して、command + c でコピーする。 Rを起動して、以下のコマンドを打てば((R4.0以降は大丈夫だが、stringsAsFactors = Fは念のためいれておくこと))、クリップボードからデータのインポートができる。 ただし、途中で、command + c をもう一度打たないこと。癖で打ってしまいそうになる。。。 コピーしたセルがヘッダーを含む場合 Data <- read.table(pipe("pbpas…
「ブログリーダー」を活用して、skさんをフォローしませんか?