一細胞トランスクリプトームデータから、クラスタリングに依存せずに発現変動遺伝子を予測する

医生研について	所長あいさつ受賞沿革組織図刊行物点検評価男女共同参画の取り組みフロンティア研究者プログラム

研究について	研究成果共通機器医の倫理委員会試料・情報を用いた医学研究に関する情報公開

2020年9月7日
一細胞トランスクリプトームデータから、クラスタリングに依存せずに発現変動遺伝子を予測する

Alexis Vandenbon^1,2* & Diego Diez³
(¹ 京都大学ウイルス・再生医科学研究所. ² 京都大学国際高等教育院. ³ 大阪大学免疫学フロンティア研究センター)
* To whom correspondence should be addressed. Email: alexisvdb*infront.kyoto-u.ac.jp (Replace the ∗ with @)

“A clustering-independent method for finding differentially expressed genes in single-cell transcriptome data”

Nature Communications (2020), DOI: 10.1038/s41467-020-17900-3

概要

一細胞シーケンスデータの解析では、細胞のクラスタリングや発現変動のある遺伝子（Differentially Expressed Gene; DEG）の予測が一般に行われます。しかし、一細胞データのような高次元データで細胞のクラスターをどう定義するかは非常に困難であり、下流の解析や結果の解釈に大きな影響を及ぼします。この問題を解決するために、我々は、細胞の明示的なクラスタリングに依存せずにDEGの予測を可能にする手法、singleCellHaystackを開発しました。この手法では、Kullback-Leibler divergenceを用いて、多次元空間においてノンランダムなパターンで配置されている細胞群で発現している遺伝子を検出します。人工データセットを利用して、singleCellHaystackは既存のDEG予測アプローチよりも高い精度で予測できることを示しました。また、136の実際の一細胞データセットと空間的トランスクリプトームデータセットへの適用を通してsingleCellHaystackの使用法を紹介しています。singleCellHaystackはRパッケージとして実装され、CRANおよびGitHubから入手できます。

singleCellHaystack R package on GitHub

singleCellHaystack R package on CRAN

以下は、singleCellHaystackの一細胞RNA-seqデータセット（図1）と空間的トランスクリプトームデータセット（図2）への応用例です。

図１: 骨髄組織データセットへの適用例。a 本データセットに含まれている5250個の細胞のt-SNEプロット。色は各細胞で検出された遺伝子の数を示す。 b–f singleCellHaystackによって予測された信頼性が高いDEGの発現パターン。

図２: マウス前脳の空間的トランスクリプトームデータセットへの適用例。a-f singleCellHaystackによって予測されて上位6つのDEG。脳内の発現レベル（正規化されたビーズあたりのタグ数）が表示されている。

研究成果RESEARCH

概要