京橋のバイオインフォマティシャンの日常ランキング

京橋のバイオインフォマティシャンの日常 https://skume.hatenablog.com/

まずは、データ分析、コマンドラインのメモとして

圏外	総合ランキング
圏外	教育ブログ
圏外	プログラミング教育
圏外	科学ブログ
圏外	生命科学
圏外	コンピュータサイエンス

本日のランキング詳細

フォロー

住所: 未設定

出身: 未設定

ブログ村参加: 2020/05/27

skさんの人気ランキング

	今日	04/23	04/22	04/21	04/20	04/19	04/18	全参加数
総合ランキング（IN）	圏外	圏外	圏外	圏外	圏外	圏外	圏外	1,034,307サイト
INポイント	0	0	0	0	0	0	0	0/週
OUTポイント	0	0	0	0	0	0	0	0/週
PVポイント	0	0	0	0	0	0	0	0/週
教育ブログ	圏外	圏外	圏外	圏外	圏外	圏外	圏外	10,901サイト
プログラミング教育	圏外	圏外	圏外	圏外	圏外	圏外	圏外	326サイト
科学ブログ	圏外	圏外	圏外	圏外	圏外	圏外	圏外	2,691サイト
生命科学	圏外	圏外	圏外	圏外	圏外	圏外	圏外	100サイト
コンピュータサイエンス	圏外	圏外	圏外	圏外	圏外	圏外	圏外	32サイト

※ランキング順位が「圏外」と表示される時は？

	今日	04/23	04/22	04/21	04/20	04/19	04/18	全参加数
総合ランキング（OUT）	圏外	圏外	圏外	圏外	圏外	圏外	圏外	1,034,307サイト
INポイント	0	0	0	0	0	0	0	0/週
OUTポイント	0	0	0	0	0	0	0	0/週
PVポイント	0	0	0	0	0	0	0	0/週
教育ブログ	圏外	圏外	圏外	圏外	圏外	圏外	圏外	10,901サイト
プログラミング教育	圏外	圏外	圏外	圏外	圏外	圏外	圏外	326サイト
科学ブログ	圏外	圏外	圏外	圏外	圏外	圏外	圏外	2,691サイト
生命科学	圏外	圏外	圏外	圏外	圏外	圏外	圏外	100サイト
コンピュータサイエンス	圏外	圏外	圏外	圏外	圏外	圏外	圏外	32サイト

※ランキング順位が「圏外」と表示される時は？

	今日	04/23	04/22	04/21	04/20	04/19	04/18	全参加数
総合ランキング（PV）	圏外	圏外	圏外	圏外	圏外	圏外	圏外	1,034,307サイト
INポイント	0	0	0	0	0	0	0	0/週
OUTポイント	0	0	0	0	0	0	0	0/週
PVポイント	0	0	0	0	0	0	0	0/週
教育ブログ	圏外	圏外	圏外	圏外	圏外	圏外	圏外	10,901サイト
プログラミング教育	圏外	圏外	圏外	圏外	圏外	圏外	圏外	326サイト
科学ブログ	圏外	圏外	圏外	圏外	圏外	圏外	圏外	2,691サイト
生命科学	圏外	圏外	圏外	圏外	圏外	圏外	圏外	100サイト
コンピュータサイエンス	圏外	圏外	圏外	圏外	圏外	圏外	圏外	32サイト

※ランキング順位が「圏外」と表示される時は？

参加テーマ

過去記事

R言語/Webスクレイピングで、Google サーチ / Google scholar経由で見つかったPDFファイルを自動ダウンロードしてみた件

Webスクレイピングとは、Webサイトから情報を抽出して、その情報を格納・分析可能な構造化データへと変換する技術を意味するようだ*1。本記事では、RからWebスクレイピングで、キーワード検索してヒットしたURLやPDFファイルを自動取得する方法を紹介します。普段から、Googleサーチで情報検索したり、論文や文献のPDFファイルを探したりしているのではないかと思います。ユーザーの検索履歴などがトラッキングされ、それに合わせて情報が提示される昨今、、、もう、Googleサーチですら面倒だと思いませんか。まぁ、少し譲歩して、「R上から検索語を入れて数十ファイルをダウンロードできる…
2020/12/06 04:02
【Macの定期メンテナンス】Finderのクイックルック機能、GUIでのファイル・フォルダ移動が遅くなり始めたら、結局これをやること。。

Mac歴が12年以上となるが、Mac PC内の定期メンテナンスは、過去のOSバージョンからも悩ましい問題である。過去には、ディスクユーティリティをいじってみたり、ファイルのセグメント化を直してみたりと、いろいろと試したが、結局あまり効果がない。 Macが遅くなる原因の1つとしては、以前にも取り上げた、「Spotlight のインデクスを作成するプロセス」があるのだが、それだけではあまり変わらない場合がある。 skume.hatenablog.com MacOSで見えている部分、GUI動作のほとんど、例えば、デスクトップ画面やツールバーの表示、ファイル・フォルダの移動・表示・管理など…
2020/12/01 21:54
【Mac版】wgetでGoogle DriveからファイルをダウンロードするTips〜フォルダの共通設定からwgetコマンド実行まで〜

最近、データを置いておくのに良さそうな公共リポジトリが見つからず、やっぱ、Google Driveを使うのが無難かなと思いだしたので、その関連記事を書いてみた。今回、Google Driveをデータリポジトリとして、データを公開して、コマンドラインでそのデータをダウンロードするやり方を扱うことにする。また、後半部分で、wgetコマンドを使用するので、以前の記事を参考にセットアップのこと。 skume.hatenablog.com もくじテストファイルの生成 Google Driveの共通フォルダ設定・ファイルアップロードファイルURLの取得・書き換え wgetでのファイル・ダウンロ…
2020/11/23 04:37
【Rのジミ〜な小技シリーズ】空リストの作成とリスト操作、それと空ベクトルを使ったベクトル結合とデータフレーム結合のトピックスを扱う

またもや、ジミーなトピックであるが、空リストlist()と空ベクトルc()について取り上げてみる。こういうジミーな技術の積み重ねがスキル向上に繋がるんだと思うんけどね。今回の内容空リストlist()からリストを作成する空ベクトルc()からベクトルを作成する空ベクトルc()からデータフレームを作成する %%EF%BC%88%E3%83%91%E3%82%A4%E3%83%97%E6%BC%94%E7%AE%97%E5%AD%90%E3%81%82%E3%82%8B%E3%81%84%E3%81%AF%E5%8D%98%E3%81%AB%E3%83%91%E3%82%A4%E3%83%9…
2020/10/26 01:39
【Rのジミ〜な小技シリーズ】データ解析の前処理で悩まされるデータ重複の問題を扱ってみた件

本記事は、 skume.hatenablog.com の続編である。さて、これからデータ解析を始めようかという時に、まずやることは該当データのクオリティチェック（品質評価）だろう。クオリティチェックと言っても、いろいろな方法・考え方があって、データによって様々である。今回は、最も基本である、データ重複の問題を扱ってみる。今回の内容練習データの準備ベクトル内で、データの重複があるかどうか？・重複をどう扱うか？ 2つのベクトル間で、データの重複があるかどうか？・重複をどう扱うか？データフレーム内で、データの重複があるかどうか？・重複をどう扱うか？まとめ参考資料練習データの準備 …
2020/10/18 01:58
バーチャルスライドスキャナー画像（.ndpi）からオリジナルTIFFイメージを取り出す際のTips〜ギガバイトイメージの画像解析入門〜

今回、バーチャルスライドスキャナー画像（.ndpi）の取り扱い方を取り上げる。 .ndpiという画像フォーマットは、浜松ホトニクス社が提供するHamamatsu formatの1つである。 NDPIファイルは「独自メタデータを持つシングルファイルTIFF-likeな形式」であり、一般的によく使われるTIFFとかPNGと比べて、なかなか扱いにくい形式である。また、TIFF-like形式というのは実際、Compress TIFF 形式で格納されていて、ImageJではその形式に対応したプラグインを導入する必要がある。今回の内容 NDPIToolsのセットアップ NDPIテストファイルのダウンロ…
2020/10/12 00:35
R言語で実行するSudachiPyによる日本語形態素解析

SudachiPyは、日本語形態素解析器SudachiのPython版である。今回、R/RStudio上でのSudachiPyの実行例を概説する。個人的には、RユーザーにとってPythonパッケージがR環境上で実行できると、いろいろと良いのでは考えている*1。例の如く、HomeBrewでPythonの環境構築を行う。 skume.hatenablog.com 今回の内容実行環境 SudachiPyのデフォルト・インストール Sudachi 辞書 fullの設定 R上でのコマンドライン版sudachipyの実行 R上でのPythonパッケージ版sudachipyの実行自作関数Sudac…
2020/10/11 17:15
Mac版Dockerで、rocker/rstudio (= RStudio Server Docker Image)をトラブルフリーでセットアップしてみた件

過去の記事で、「【macOS X編】 Homebrewで、RStudio Serverをインストールしてみた件 + nginx設定」を紹介した。現状、MacローカルでのRstudio Server動作について、バージョン・アップ等の問題で*1、少々動作が不安定な場合がある。そのため、ローカル環境で構築せずに、Docker/Rocker を使用することを推奨する。 skume.hatenablog.com Dockerとは、ホストマシンのカーネルを利用して、コンテナ型の仮想環境を作成、配布、実行するための実行環境である。概要として、環境構築済みのDockerイメージ（= コンテナを起動さ…
2020/09/16 21:15
【Rのジミ〜な小技シリーズ】ベクトルに「含まれる」「含まれない」要素の取り出し、論理値について

ある数値・文字列が、こっちのベクトルにも含まれるのか、何番目に出現するのか等を考えると、しばしば悩ましい状況がある。このような、ベクトル間の関係性を調べる方法を紹介する。（1）あるベクトルから他ベクトルに「含まれる要素」あるいは「含まれない要素」を抽出する方法例1: 共通に含まれている要素を取り出すあるベクトルから他ベクトルに含まれる要素（共通要素）の抽出を実行する。 x <- c(1, 2, 3, 4, 5) y <- c(4, 5, 6, 7, 8) # x を基準にする場合 a <- x %in% y a #[1] FALSE FALSE FALSE TRUE TRUE x0 <…
2020/08/31 03:20
Macで、mds_storesのプロセスを消し出したら、Spotlightとの決別のサインかも！？

mds_store というMacのプロセスは、Spotlight のインデクスを作成するプロセスである。これに加えて、mdworkerというプロセスもあり、これらのプロセスが頑張って、Macのファイル検索システムであるSpotlight関連の機能を実現している。知らず知らずのうちに、mdsプロセスたちが動き出すと、CPU使用率を結構消費するうえに、Mac本体の温度上昇も半端ない。私の場合、mds_storeが動き出したと気づけば、即座に、アクティビティモニターでプロセスの息の根を止めていた。ただ、mdsプロセスはしぶとくすぐに復活してくる。。。 mds_storesに対するイライラが域値…
2020/08/20 03:01

Rのどぎついレインボー・カラーを和らげて、使える色へと変換するTipsについて

楽なので、Rのplot()時に、レインボー色（grDevices::rainbow）を使うんだけど、お世辞にも良い色とは言えず、ドギツイ色を使うねと周囲から言われる。今回、それを挽回するために、そのレインボー色を和らげる方法を紹介する。 rainbow関数では、16進数で表される「カラーコード」*1 + 透明度が出力される。そのため、透明度の設定を変更すると、程良いレインボー・カラーにすることができる。例えば、grDevices::rainbow(10)の出力結果は、次のようになる。 grDevices::rainbow(10) [1] "#FF0000FF" "#FF9900FF" …
2020/07/25 04:27
時々にしたくなる、Rの古いバージョンのパッケージ（The previous version packages）をインストールする件

Rを使っていると、稀に、パッケージのバージョン違いで問題が起こる。そのとき、以前のバージョンのパッケージをインストールする必要がでてくる。以前のバージョンをインストールする場合には、まず、CRANのパッケージのページにいく。例えば、psychパッケージだと、以下のURLになる。 https://cran.r-project.org/web/packages/psych/index.html そこで、Downloads:にある、psych archiveをクリックして、アーカイブのページにはいる。そこのアーカイブのなかから、必要なバージョンを探す。ここでは、1つ前のバージョン 1.9.…
2020/06/30 03:13
grepコマンドで文字列処理をやってみた件【その2】検索語のヒット数カウントとか検索語の前後文字の抽出とか色々

「grepコマンドによる文字列処理をやってみた」の続編である。以前扱えていなかった内容をやっていきたい。 grepコマンドの基本については過去の記事を参照のこと。 skume.hatenablog.com skume.hatenablog.com まずは、サンプルデータをダウンロードする $ svn export https://github.com/kumeS/Blog/trunk/grep_practice_02 $ cd ./grep_practice_02 # test.txtを使っていく。 $ cat test.txt #abcde #ABCDE # #abcdefghijklmn…
2020/06/28 01:28
PubMed API と googletrans を使って、PubMed掲載論文のAbstract和訳をRでやってみた件

論文のトレンド解析であったり、個別の論文情報、主に要旨（Abstract）を取得してみた。もう少し発展させて、Abstractの英文テキストの和訳をして、Rmarkdownのレポート作成するまでをやってみた。今回扱う、RISmed パッケージは、PubMedを含むNational Center for Biotechnology Information （NCBI: アメリカ国立生物工学情報センター）のデータベースから論文情報を抽出するためのツール群である*1。また、Abstractのテキスト和訳には、以前の記事で紹介した、Pythonの googletrans ライブラリを使用する。 …
2020/06/26 03:55
R/Keras/TensorFlowでやる『ディープラーニング(Deep Learning)』のすゝめ【2】教師なしニューラルネットワーク Autoencoder with 2D CNNの実装、そして色ムラ・ノイズ除去(Denoising)をやってみた件

「R/Keras/TensorFlowでやるディープラーニングのすゝめ」の連載2回目です。【1】では、ベクトルデータに対する Autoencoderを取り上げたが、今回は、 2D Convolutional Neural Network (CNN: 畳み込みニューラルネットワーク) を使ったAutoencoderの実装について紹介する。下記で登場する、CNN、Maxプーリング、Upサンプリング、活性化関数などについては、すでに多くの分かりやすい説明記事があるので、そちらを参照のこと。 qiita.com deepage.net qiita.com kansiho.hatenablog.…
2020/06/21 16:06
Rの「reticulate」を使えば、Pythonライブラリがインポート・実行できる。そして、R上で「googletrans」を用いた日英翻訳をやってみた件

Rの reticulateパッケージは、Python と R の連携性を高めるツール群である*1。つまりは、Rセッション内でPythonのスクリプトやライブラリをインポートして、シームレスにPythonコードを実行できるなど、RからPythonを呼び出すことができる。また、RとPythonのオブジェクト間の変換も可能である（Ex. R データフレーム <=> Pandas）。 reticulate::importを使用して、R上で、googletransライブラリを読み込んで、日=>英翻訳、戻し翻訳をおこってみる。 googletransライブラリのメリット・デメリット Googletra…
2020/06/19 02:44
R/Keras/TensorFlowでやる『ディープラーニング( Deep Learning )』のすゝめ【1】教師なしニューラルネットワークDeep Autoencoder のsimple modelをやってみた件

Rで、ディープラーニング( Deep Learning )をやるというのが最近の活動である。【1】では、教師なしニューラルネットワークであるAutoencoder（オートエンコーダー）のsimple modelを実装してみる。 Autoencoder は、Encoder（元データから低次元への変換層）とDecoder（低次元から元データに戻す変換層）からなるニューラルネットワークの特殊系の1つである。 Autoencoderでは、出力層で与える教師データを入力層としても与えることで、入力層と出力層のユニットが同じとなる構造を持つ。 Autoencoderの開発は1980年代に遡り、Hint…
2020/06/18 03:27
10倍量のヨーグルトを作りながら、菌の増殖曲線を考えてみた件

最近、ヨーグルト作りにハマっている。種菌（いわゆる、0.1L 飲むヨーグルト）から、10倍量（1L）のヨーグルトを作っている。飲むヨーグルト1本は、だいたい100円くらいなので、10倍量で1000円となって、必要経費を引いても、だいたい700円弱お得である。また、ヨーグルトの酸味や固さを自分の好みにできる。今回、「ガセリ菌を使った10倍量（1L）ヨーグルトの作製法」と「菌の増殖曲線」について検討したことを、実験ぽく紹介する*1。 10倍量ヨーグルト作製のマテリアルガセリ菌の種菌（= 某メグミルク製のガセリ菌SP株の飲むヨーグルト）培地（= 某メグミルク製の牛乳）グルコース（= 三温糖…
2020/06/13 04:12
【Mac】エクセルのセルをコピーして、クリップボードのまま、Rのread.tableでデータフレームとして直接読み込む時の方法

今までほぼやってなかったけど、さっき使ってみて思いの外便利だったので、今後はこれを使いたいと強いメッセージを込めて、これのみでメモっておく。まずは、エクセルの任意のセルを選択して、command + c でコピーする。 Rを起動して、以下のコマンドを打てば*1、クリップボードからデータのインポートができる。ただし、途中で、command + c をもう一度打たないこと。癖で打ってしまいそうになる。。。コピーしたセルがヘッダーを含む場合 Data <- read.table(pipe("pbpaste"), header=T, stringsAsFactors = F) Data # OR…
2020/06/09 03:54
エクセルのセルをコピーして、クリップボードのまま、Rのread.tableで直接読み込む時の方法

今までほぼやってなかったけど、さっき使ってみて思いの外便利だったので、今後はこれを使いたいと強いメッセージを込めて、これのみでメモっておく。まずは、エクセルの任意のセルを選択して、command + c でコピーする。 Rを起動して、以下のコマンドを打てば((R4.0以降は大丈夫だが、stringsAsFactors = Fは念のためいれておくこと))、クリップボードからデータのインポートができる。ただし、途中で、command + c をもう一度打たないこと。癖で打ってしまいそうになる。。。コピーしたセルがヘッダーを含む場合 Data <- read.table(pipe("pbpas…
2020/06/09 03:54