オープンサイエンスとしてのライフサイエンス研究の情報や、研究で使えるIT技術情報、がん治療の最新研究、生活・研究に役立つソフトウェアなどを公開しています。
遺伝子発現量カウントの補正方法(RPM, RPKM, TPM)【Python】
RNA-Seqにおける遺伝子発現量カウントは遺伝子長やリード数などで補正をする必要があります。ここではその補正方法として、RPM/FPM、RPKM/FPKM、TPMについて説明し、Pythonを用いたプログラムで実装してみます。 OS Windows10 + WSL (WindowsユーザーのためのPythonを用いたゲノム解析環境) Python Python 3.7.9 モジュール BCBio
GDC Data Portal (TCGA) のデータを取得する
がんゲノムデータベースの一つであるGDC Data Portal (TCGA)からは様々なゲノムデータを取得することができ、がん研究に携わる人は必ず使いこなさないといけない必須スキルとすら言えます。ここでは、GDC Data Portalの使い方について説明していきます。 GDC Data Portal (TCGA)について NIH(アメリカ国立衛生研究所)によるがんゲノムプロジェクトで、さまざま
htseq-countを用いた遺伝子発現量のカウント【Python】
RNA-Seqのシークエンスデータをマッピングし、それぞれの遺伝子領域にいくつのリードがマッピングされたかをカウントすることで遺伝子発現量を定量化することができます。マッピングファイルから遺伝子発現量をカウントするプログラムはいくつかありますが、ここではPythonを用いて作成されたプログラムであるhtseq-countについて説明していきます。 動作確認環境 OS Windows10 + WSL
Windows10のMS-IMEで「かな」「英数」キーを割り当てる方法【Windows】
Windowsユーザーなら、日本語の文書を書こうとして入力したのにIMEがオフで半角の英字が入力されてしまったり、英語の文書を入力しようとしているのに日本語入力になってしまってイライラした経験は必ずありますよね? 今回はWindows10 20H1(バージョン2004)以降の機能を使ってそのイライラから解放する方法を説明します。 Windowsユーザーのイライラ ― MS-IMEのオン・オフの切り
ゲノムアノテーションファイル(GFF3形式)の基本操作【Python】
ゲノムアノテーションファイルとしてGFF形式やGTF形式などがあります。 GFF3を基本として説明する。 バイオインフォマティクス環境 OS Windows10 + WSL (WindowsユーザーのためのPythonを用いたゲノム解析環境) Python Python 3.7.6 モジュール BCBio-GFF 0.6.6 GFF形式のバージョンとその基本構造 GFF形式の種類 GFF形式にはい
バリアントコールファイル(VCF形式)の基本操作【Python】
バリアントコールファイル(VCF形式)は一塩基多型(SNP)、挿入欠失(InDel)、コピー数多型(CNV)などのゲノム配列の変異情報を保存するためのデータ形式です。 ここではVCF形式の基本的な事項と、Pythonを用いた基本的な操作方法を説明してきます。 バイオインフォマティクス環境 以下の方法で構築した環境であることを前提として説明します。 Windows10 + WSL (Windowsユ
マッピングファイル(SAM/BAM/CRAM形式)の基本操作【Python】
NGSからFASTQ形式のデータを取得したら、それをbowtieやHISAT2、STARなどのゲノムマッピングプログラムを用いて、リファレンスゲノム配列にマッピングして解析します。マッピング結果はマッピングファイル(SAM/BAM/CRAM形式)で取得されますが、ここではPythonを用いてマッピングファイルを操作する方法を説明していきます。 バイオインフォマティクス環境 以下の方法で構築した環境
研究に限らず、その人の業績を客観的に評価するのは難しいことです。同じ企業内でも社員の業績評価は難しいのに、異なる施設にいる研究者同士の業績はどのように評価していけばいいのでしょうか。そもそも研究者としてキャリアを積んでいくには何を目指して成果を出していけばいいのでしょうか。 ここでは一般的に用いられている評価指標として、論文の被引用数やh-index、インパクトファクターについて説明していきます。
ゲノムデータはその人の遺伝的特徴のすべてを表しているもので、個人情報の塊といえるものです。通常研究でヒトのゲノムデータを扱うときは匿名化されたデータとして扱いますが、しかし科学の発展のためにあえて自分のゲノムデータを公共データベースで公開している人がいます。実名のゲノムデータがあれば、ゲノム解析のデータと実際のヒトとを結びつけて結果を見ることができ、解析結果が一気に身近なものになりますよね?まさに
リファレンスゲノム配列(GRCh38/hg38)と日本人基準ゲノム配列(JG2)
NGSで解析したゲノムデータのアラインメントに必要なリファレンスゲノム配列としては「GRCh38/hg38」が広く用いられていますが、最近日本人について解析した「日本人基準ゲノム配列(JG2)」が公開されました。ここでは、このリファレンスゲノム配列について紹介していきます。 リファレンスゲノム配列(GRCh38/hg38) リファレンスゲノム配列について ヒトやその他の生物のゲノム配列は個体ごとに
1000人ゲノムプロジェクト(1000 Genomes Project)は、異なる民族のヒトのゲノムサンプルを少なくとも1000人分以上解析し、遺伝的多様性のカタログを公開することを目指したプロジェクトで、2008年に開始されました。このプロジェクトはIGSRによって管理されている国際プロジェクトで、日本も含めた世界の26の集団からの3202人のゲノムデータが解析されています。 ここでは1000人
FASTQ形式の配列データの品質をPythonでチェックしてみる【Python】
NGSから配列データがFASTQ形式で得られたら、まずはそのクォリティをチェックする必要があります。FastQCというアプリケーションで品質チェック・管理を行うことが一般的ですが、ここではPythonのプログラムでFastQCの品質チェックを再現してみましょう。実際に手を動かして試してみれば、FastQCの品質チェックがよく理解できて、FASTQ形式のデータの理解も深まると思います。 バイオインフ
実験の測定データにはばらつきが生じてしまいますが、測定ミスや何らかの外部的な要因でどう考えてもおかしい値が出ることがあります。しかし、そのようなデータを明確な基準もなく除外してしまっては、恣意的なデータとなってしまい、データの信頼性を落とす結果となってしまいます。もちろん、断りなくデータを除外してしまってはデータの改ざんになってしまいます。 そのようなときに、外れ値を統計的に判定する方法を持ってい
確率・オッズ・ロジットの関係からオッズ比、ロジスティック回帰モデルまで
確率からオッズやロジットといった様々な概念が生み出されています。それらを活用することで医療統計の分野などでおなじみのロジスティック回帰モデルも説明できます。でも、オッズやロジットとロジスティック回帰モデルの関係を理解できていますか?そもそも、ロジスティック回帰モデルの「ロジスティック」ってどういう意味ですか? ここではそれらの疑問を解いていきましょう! 確率とオッズ・ロジット 確率pに対して、その
DataFrameから条件を指定してデータを抽出する方法(ブールインデックス参照)【Python】
pandasのDataFrameで条件式を用いてデータの抽出を行う方法を説明します。データの抽出にはいくつかの方法がありますが、ここでは基本となるブールインデックス参照を用いた方法を解説していきます。 開発環境 pandas 1.0.3Python 3.7.7 ブールインデックス参照とは? DataFrameの要素を抽出する際に、添え字に要素数と同じ数のbool型のリストでインデックスを指定すると
DataFrameから条件を指定してデータを抽出する方法(queryメソッド)【Python】
pandasのDataFrameで条件式を用いてデータの抽出を行う方法を説明します。データの抽出にはいくつかの方法がありますが、ここでは最もスマートに抽出できるqueryメソッドを用いた方法を解説します。 開発環境 pandas 1.0.3Python 3.7.7 DataFrameから条件式でデータを抽出する方法 DataFrameのqueryメソッドに抽出条件を文字列として指定することで、条件
「ブログリーダー」を活用して、あさくらさんをフォローしませんか?