chevron_left

メインカテゴリーを選択しなおす

cancel
BioTech ラボ・ノート https://biotech-lab.org/

オープンサイエンスとしてのライフサイエンス研究の情報や、研究で使えるIT技術情報、がん治療の最新研究、生活・研究に役立つソフトウェアなどを公開しています。

あさくら
フォロー
住所
未設定
出身
未設定
ブログ村参加

2020/08/29

arrow_drop_down
  • リファレンスゲノム配列(GRCh38/hg38)と日本人基準ゲノム配列(JG2)

    NGSで解析したゲノムデータのアラインメントに必要なリファレンスゲノム配列としては「GRCh38/hg38」が広く用いられていますが、最近日本人について解析した「日本人基準ゲノム配列(JG2)」が公開されました。ここでは、このリファレンスゲノム配列について紹介していきます。 リファレンスゲノム配列(GRCh38/hg38) リファレンスゲノム配列について ヒトやその他の生物のゲノム配列は個体ごとに

  • 1000人ゲノムプロジェクトからデータを取得する

    1000人ゲノムプロジェクト(1000 Genomes Project)は、異なる民族のヒトのゲノムサンプルを少なくとも1000人分以上解析し、遺伝的多様性のカタログを公開することを目指したプロジェクトで、2008年に開始されました。このプロジェクトはIGSRによって管理されている国際プロジェクトで、日本も含めた世界の26の集団からの3202人のゲノムデータが解析されています。 ここでは1000人

  • FASTQ形式の配列データの品質をPythonでチェックしてみる【Python】

    NGSから配列データがFASTQ形式で得られたら、まずはそのクォリティをチェックする必要があります。FastQCというアプリケーションで品質チェック・管理を行うことが一般的ですが、ここではPythonのプログラムでFastQCの品質チェックを再現してみましょう。実際に手を動かして試してみれば、FastQCの品質チェックがよく理解できて、FASTQ形式のデータの理解も深まると思います。 バイオインフ

  • 実験データの外れ値を統計学的に判別する方法

    実験の測定データにはばらつきが生じてしまいますが、測定ミスや何らかの外部的な要因でどう考えてもおかしい値が出ることがあります。しかし、そのようなデータを明確な基準もなく除外してしまっては、恣意的なデータとなってしまい、データの信頼性を落とす結果となってしまいます。もちろん、断りなくデータを除外してしまってはデータの改ざんになってしまいます。 そのようなときに、外れ値を統計的に判定する方法を持ってい

  • 確率・オッズ・ロジットの関係からオッズ比、ロジスティック回帰モデルまで

    確率からオッズやロジットといった様々な概念が生み出されています。それらを活用することで医療統計の分野などでおなじみのロジスティック回帰モデルも説明できます。でも、オッズやロジットとロジスティック回帰モデルの関係を理解できていますか?そもそも、ロジスティック回帰モデルの「ロジスティック」ってどういう意味ですか? ここではそれらの疑問を解いていきましょう! 確率とオッズ・ロジット 確率pに対して、その

  • DataFrameから条件を指定してデータを抽出する方法(ブールインデックス参照)【Python】

    pandasのDataFrameで条件式を用いてデータの抽出を行う方法を説明します。データの抽出にはいくつかの方法がありますが、ここでは基本となるブールインデックス参照を用いた方法を解説していきます。 開発環境 pandas 1.0.3Python 3.7.7 ブールインデックス参照とは? DataFrameの要素を抽出する際に、添え字に要素数と同じ数のbool型のリストでインデックスを指定すると

  • DataFrameから条件を指定してデータを抽出する方法(queryメソッド)【Python】

    pandasのDataFrameで条件式を用いてデータの抽出を行う方法を説明します。データの抽出にはいくつかの方法がありますが、ここでは最もスマートに抽出できるqueryメソッドを用いた方法を解説します。 開発環境 pandas 1.0.3Python 3.7.7 DataFrameから条件式でデータを抽出する方法 DataFrameのqueryメソッドに抽出条件を文字列として指定することで、条件

  • DataFrame / Series からリストに変換する【Python】

    データ解析にはDataFrameやSeriesが非常に有用ですが、場合によっては最も単純なデータ形式であるリスト形式が必要になる場面もあります。DataFrameからリストとして取得したいデータをSeriesとして抽出してから、Seriesのto_listメソッドを用いることでリストに変換できます。 開発環境 pandas 1.0.3Python 3.7.7 DataFrameの行・列をリストに変

  • 正規母集団の母平均の区間推定を行う【Python】

    ある集団の平均値を求めるときに、そのすべてを調べるのは困難な場合は一部のサンプルの平均値を求めて元の集団の平均値を求めることがよく行われます。今回はそのような場合の、一部のサンプルの平均値(=標本平均)から元の集団の平均値(=母平均)の範囲を推定する方法をPythonを用いて説明します。 開発環境 Python 3.7.7scipy 1.4.1 具体的な状況を考えてみる ― 全社員の身長の平均値は

  • 箱ひげ図を描く【Python】

    箱ひげ図を用いることでデータのばらつきを分かりやすく表現することが可能になります。ここでは、Pythonのmatplotlibを用いて箱ひげ図を描く方法を説明します。 開発環境 matplotlib 3.1.3Python 3.7.7 箱ひげ図とは? 箱ひげ図は与えられたデータ系列から四分位数と呼ばれる以下の5つの統計量を可視化したグラフです。 最小値25パーセンタイル(第1四分位点)中央値(第2

  • OneNoteを使った書籍の電子化 ― 紙の本のよさをそのままに

    紙の本には紙の本の良さがありますが、やはり電子化してスマートな生活を送りたいですよね。そんな方のために紙の本の良さを保ちつつ本を電子化する方法をご紹介します。あくまでも自分が個人的にやっている方法を紹介するだけなので、もっといいやり方もあるかもしれませんが、少しでも役に立つ部分があれば幸いです。 紙の本の良さと電子化のデメリット 紙の本の良さは何でしょうか?いろいろあるとは思いますが、個人的には以

arrow_drop_down

ブログリーダー」を活用して、あさくらさんをフォローしませんか?

ハンドル名
あさくらさん
ブログタイトル
BioTech ラボ・ノート
フォロー
BioTech ラボ・ノート

にほんブログ村 カテゴリー一覧

商用