京都大学 ウイルス・再生医科学研究所

機械学習を用いたヒトゲノムにおける未知のRNAウイルス様配列の同定

小嶋将平1、吉川剛平2、伊東潤平3、中川 草、Nicholas F. Parrish 5、堀江真行1,6、川野秀一2、朝長啓造1,7,8

(1京都大学ウイルス・再生医科学研究所RNAウイルス分野、2東京電気通信大学、3東京大学医科学研究所、4東海大学総合医学研究所、5理化学研究所生命医科学研究センター、6京都大学白眉センター、7京都大学大学院医学研究科分子ウイルス学分野、8京都大学大学院生命科学研究科生体動態制御学分野)

Virus-like insertions with sequence signatures similar to those of endogenous nonretroviral RNA viruses in the human genome.

Proc Natl Acad Sci USA. 2021 118(5):e2010758118.  doi: 10.1073/pnas.2010758118.

概要

内在性ウイルス様エレメント(EVE)は、宿主ゲノムに存在するウイルス由来配列である。EVEの解析は、ウイルスの起源と多様性を明らかにするのみならず、ウイルス感染が私たち宿主の進化に与えた影響についても大きな知見をもたらしてくれる。これまで、EVEの検出はBLAST等を利用したウイルス配列と生物ゲノムとの類似性検索に依存していた。そのため、既知のウイルスと相同性を有するEVEしか検出できないという問題点があった。また、配列相同性に依存した方法では、絶滅ウイルス由来のEVEを検出することは不可能である。そこで本研究では、ウイルスのゲノム配列に依存しないEVE検出手法を開発した。多くのRNAウイルス由来EVEはゲノム挿入位置にポリA配列とTarget site duplication (TSD)を持っている。そこでまず、 ヒトゲノムからポリAとTSDを検出し(約800万箇所)、検出された配列に対して動物間で比較を行うことで、進化過程で配列された挿入と考えられるゲノム領域を同定した(約5,500箇所)。次に、既知のシュードジーンや単純リピート配列を除いたのちに、k-merを特徴量とした機械学習手法により、EVEの特徴を有する配列を抽出した(100配列)。これらのEVE様配列には、それまでの検出法では同定されなかった新規のボルナウイルス様配列が含まれていた。さらに、EVE様配列のホモログ検索と系統解析を行うことで、既知のウイルスとは全く配列相同性を持たないEVEを同定することに成功した。我々の解析は、動物ゲノムにはいまだ検出されていないウイルス由来配列が存在していることを示すとともに、太古における未知のウイルス多様性を明らかにした初めての報告である。