2020年9月7日 一細胞トランスクリプトームデータから、クラスタリングに依存せずに発現変動遺伝子を予測する |
Alexis Vandenbon1,2* & Diego Diez3
(1 京都大学ウイルス・再生医科学研究所. 2 京都大学国際高等教育院. 3 大阪大学免疫学フロンティア研究センター)
* To whom correspondence should be addressed. Email: alexisvdb*infront.kyoto-u.ac.jp (Replace the ∗ with @)
“A clustering-independent method for finding differentially expressed genes in single-cell transcriptome data”
Nature Communications (2020), DOI: 10.1038/s41467-020-17900-3
概要
一細胞シーケンスデータの解析では、細胞のクラスタリングや発現変動のある遺伝子(Differentially Expressed Gene; DEG)の予測が一般に行われます。しかし、一細胞データのような高次元データで細胞のクラスターをどう定義するかは非常に困難であり、下流の解析や結果の解釈に大きな影響を及ぼします。この問題を解決するために、我々は、細胞の明示的なクラスタリングに依存せずにDEGの予測を可能にする手法、singleCellHaystackを開発しました。この手法では、Kullback-Leibler divergenceを用いて、多次元空間においてノンランダムなパターンで配置されている細胞群で発現している遺伝子を検出します。人工データセットを利用して、singleCellHaystackは既存のDEG予測アプローチよりも高い精度で予測できることを示しました。また、136の実際の一細胞データセットと空間的トランスクリプトームデータセットへの適用を通してsingleCellHaystackの使用法を紹介しています。singleCellHaystackはRパッケージとして実装され、CRANおよびGitHubから入手できます。
singleCellHaystack R package on GitHub
singleCellHaystack R package on CRAN
以下は、singleCellHaystackの一細胞RNA-seqデータセット(図1)と空間的トランスクリプトームデータセット(図2)への応用例です。
図1: 骨髄組織データセットへの適用例。a 本データセットに含まれている5250個の細胞のt-SNEプロット。色は各細胞で検出された遺伝子の数を示す。 b–f singleCellHaystackによって予測された信頼性が高いDEGの発現パターン。
図2: マウス前脳の空間的トランスクリプトームデータセットへの適用例。a-f singleCellHaystackによって予測されて上位6つのDEG。脳内の発現レベル(正規化されたビーズあたりのタグ数)が表示されている。