医生研について
研究について
ホーム > 研究成果 > 一細胞トランスクリプトームデータから、クラスタリングに依存せずに発現変動遺伝子を予測する
2020年9月7日
一細胞トランスクリプトームデータから、クラスタリングに依存せずに発現変動遺伝子を予測する

Alexis Vandenbon1,2* & Diego Diez3
(1 京都大学ウイルス・再生医科学研究所. 2 京都大学国際高等教育院. 3 大阪大学免疫学フロンティア研究センター)
* To whom correspondence should be addressed. Email: alexisvdb*infront.kyoto-u.ac.jp (Replace the ∗ with @)

A clustering-independent method for finding differentially expressed genes in single-cell transcriptome data

Nature Communications (2020),     DOI: 10.1038/s41467-020-17900-3

概要

一細胞シーケンスデータの解析では、細胞のクラスタリングや発現変動のある遺伝子(Differentially Expressed Gene; DEG)の予測が一般に行われます。しかし、一細胞データのような高次元データで細胞のクラスターをどう定義するかは非常に困難であり、下流の解析や結果の解釈に大きな影響を及ぼします。この問題を解決するために、我々は、細胞の明示的なクラスタリングに依存せずにDEGの予測を可能にする手法、singleCellHaystackを開発しました。この手法では、Kullback-Leibler divergenceを用いて、多次元空間においてノンランダムなパターンで配置されている細胞群で発現している遺伝子を検出します。人工データセットを利用して、singleCellHaystackは既存のDEG予測アプローチよりも高い精度で予測できることを示しました。また、136の実際の一細胞データセットと空間的トランスクリプトームデータセットへの適用を通してsingleCellHaystackの使用法を紹介しています。singleCellHaystackはRパッケージとして実装され、CRANおよびGitHubから入手できます。

singleCellHaystack R package on GitHub

singleCellHaystack R package on CRAN

以下は、singleCellHaystackの一細胞RNA-seqデータセット(図1)と空間的トランスクリプトームデータセット(図2)への応用例です。

図1: 骨髄組織データセットへの適用例。a 本データセットに含まれている5250個の細胞のt-SNEプロット。色は各細胞で検出された遺伝子の数を示す。 b–f singleCellHaystackによって予測された信頼性が高いDEGの発現パターン。

図2: マウス前脳の空間的トランスクリプトームデータセットへの適用例。a-f singleCellHaystackによって予測されて上位6つのDEG。脳内の発現レベル(正規化されたビーズあたりのタグ数)が表示されている。